Professional Documents
Culture Documents
马尔科夫决策过程 录屏
马尔科夫决策过程 录屏
QQ:1071955807
2021年7月12日
目录 1 马尔可夫过程
CONTENTS 2 马尔可夫奖励过程
3 马尔可夫决策过程
第一部分 Markov Process 马尔可夫过程
马尔可夫性质
状态转移矩阵
基本构成要素
马尔可夫性质
马尔可夫过程(Markov Process)
无记忆的随机过程(memoryless random process)
随机状态序列𝑺𝟏 , 𝑺𝟐 , … …具有马尔可夫性质
未来只与现在
如何体现 有关
下一状态
而与过去无关?
由上一状态决定
… … …
状态集合 𝐒
𝑺𝟏 𝑺𝟐 𝑺𝟑 1
状态转移矩阵
𝑺𝟏 𝑺𝟐 𝑺𝟑 𝑷𝒔𝒔′ = 𝑷 [ 𝑺𝒕+𝟏 = 𝒔′ | 𝑺𝒕 = 𝒔 ]
𝑺𝟏 0.2 0.3 0.4
𝑷𝟏𝟏 ⋯ 𝑷𝟏𝒏
𝑺𝟐 0.5 0.1 0.4 𝑷= ⋮ ⋱ ⋮
𝑺𝟑 0.3 0.6 0.2 𝑷𝒏𝟏 ⋯ 𝑷𝒏𝒏
2
基本构成要素
马尔可夫过程(Markov Process)
马尔可夫过程(或马尔可夫链)是一个二元组<𝑺,𝑷>
• 𝑺 :(有限)状态集
• 𝑷: 状态转移概率矩阵
𝑷𝒔𝒔′ = 𝑷 [ 𝑺𝒕+𝟏 = 𝒔′ | 𝑺𝒕 = 𝒔 ]
3
第二部分 MRPs 马尔可夫奖励过程
基本构成要素
回报和值函数
MRPs的贝尔曼方程
贝尔曼方程的矩阵形式
基本构成要素
• 𝑺 :(有限)状态集
• 𝑷: 状态转移概率矩阵 𝑃𝑠𝑠′ = 𝑃 [ 𝑆𝑡+1 = 𝑠 ′ | 𝑆𝑡 = 𝑠 ]
• 𝑹 : 奖励函数 𝑹𝑺 = 𝑬 [ 𝑹𝒕+𝟏 | 𝑺𝒕 = 𝒔 ]
• 𝜸: 折扣因子/衰减系数 𝜸 ∈ [𝟎, 𝟏]
4
奖励函数
• 𝑹 : 奖励函数 𝑹𝑺 = 𝑬 [ 𝑹𝒕+𝟏 | 𝑺𝒕 = 𝒔 ]
一定分布
𝑺𝟐 𝑹𝑺𝟏 = 𝑬 [ 𝑹𝒕+𝟏 | 𝑺𝒕 = 𝑺𝟏 ]
𝑹𝒕+𝟏 𝑹𝑺𝟐 = 𝑬 [ 𝑹𝒕+𝟏 | 𝑺𝒕 = 𝑺𝟐 ]
𝑺𝟏 𝑺𝟒 𝑹𝑺𝟑 = 𝑬 [ 𝑹𝒕+𝟏 | 𝑺𝒕 = 𝑺𝟑 ]
𝑺𝟑
𝑹𝑺𝟒 = 𝑬 [ 𝑹𝒕+𝟏 | 𝑺𝒕 = 𝑺𝟒 ]
5
回报和值函数
• 𝜸: 折扣因子/衰减系数 𝜸 ∈ [𝟎, 𝟏]
回报(Return):𝑮𝒕 是从时间𝒕开始的总折扣奖励
∞
表示所有奖励在当前的价值
• 未来是不确定的
• 未来很长
𝒕 𝒕+𝟏 𝒕+𝟐 6
回报和值函数
值函数(Value Function):𝐕(𝐬)表示一个状态𝐬的长期价值
𝐕 𝐬 = 𝐄[𝑮𝒕 |𝑺𝒕 = 𝒔]
∞
9
贝尔曼方程的矩阵形式
贝尔曼方程矩阵形式
𝑽 𝒔 = 𝑹𝒔 + 𝜸 𝑷𝒔𝒔′ 𝑽 𝒔′
𝒔′ ∈𝑺
𝑛∗1 𝑛∗1 𝑛∗𝑛 𝑛∗1
𝑽 = 𝑹 + 𝜸𝑷𝑽
复杂度𝐎(n³)
⚫ 动态规划(Dynamic programming)
(𝟏 − 𝜸𝑷)𝑽 = 𝑹
⚫ 蒙特卡洛评估(Monte-Carlo evaluation)
𝑽 = (𝟏 − 𝜸𝑷)−𝟏 𝑹 ⚫ 时序差分学习(Temporal-Difference learning) 10
第三部分 MDP 马尔可夫决策过程
基本构成要素
策略和值函数
贝尔曼期望方程
最优值函数和最优策略
贝尔曼最优方程及求解
基本构成要素
• 𝑺 :(有限)状态集
• A: (有限)动作集
• 𝑷: 状态转移概率矩阵 𝑃𝑠𝑠
𝑎 ′
′ = 𝑃 [ 𝑆𝑡+1 = 𝑠 | 𝑆𝑡 = 𝑠, 𝐴𝑡 = 𝑎]
策略(Policy)
• 策略完全决定智能体行为
• MDP策略依赖于当前状态(无关历史)
• 策略是固定的(无关时间) 𝑨𝒕 ~𝝅 · 𝑺𝒕 , 任意𝒕>𝟎
12
策略
其可转化为马尔可夫过程和马尔可夫奖励过程
<𝑺,𝑷> <𝑺, 𝑷, 𝑹, 𝜸>
𝒂𝟏 𝒑𝟏
𝑷𝝅
𝒔,𝒔′ = σ𝒂∈𝑨 π(𝒂|𝒔) 𝑷𝒂𝒔,𝒔′ 𝑷𝒂𝝅
𝒔,𝒔′
𝟐 𝒑𝟐
𝒂𝟑 𝒑𝟑
𝑹𝝅
𝒔 = σ𝒂∈𝑨 π(𝒂|𝒔) 𝑹𝒂𝒔 𝒔 𝒔′
13
值函数
状态值函数(State-value function)
𝝅 𝒂𝒔 𝝅 𝒂 𝒔′
𝒗𝝅 𝒔 = 𝑬𝝅 [𝑮𝒕 |𝑺𝒕 = 𝒔]
𝒔 𝒔′ 𝒔′′ …
动作值函数(Action-value function)
𝒂 𝝅 𝒂 𝒔′
状态值函数(State-value function)
𝒗𝝅 𝒔 = 𝑬𝝅 [𝑮𝒕 |𝑺𝒕 = 𝒔]
∞
动作值函数(Action-value function)
𝒒𝝅 𝒔, 𝒂 = 𝑬𝝅 [𝑮𝒕 |𝑺𝒕 = 𝒔, 𝑨𝒕 = 𝒂]
∞
𝒗𝝅 𝒔 𝒔 𝒒𝝅 𝒔, 𝒂 𝒔, 𝒂
𝒒𝝅 𝒔, 𝒂 𝒂 𝒗𝝅 𝒔′ 𝒔′
最优策略(Optimal policy)•确定值
存在一个最优策略,使𝝅∗ ≥ 𝒂𝒏𝒚 𝝅
𝝅∗ ≥ 𝒂𝒏𝒚 𝝅 • 所有最优策略都能取得最优状态值函数
注:若𝑣𝜋’ 𝑠 ≥ 𝑣𝜋 𝑠 ,则𝜋′> 𝜋 • 所有最优策略都能取得最优动作值函数 18
贝尔曼最优方程及求解
状态值函数的贝尔曼最优方程
𝒗∗ 𝒔 = 𝒎𝒂𝒙[𝑹𝒂𝒔 + 𝜸 𝑷𝒂𝒔𝒔′ 𝒗∗ 𝒔′ ]
𝒂
𝒔′ ∈𝑺
20
谢谢聆听,请您指导
THANKS