马尔科夫决策过程-录屏

马尔可夫决策过程
Bellman, R. , 1957. A Markovian Decision Process.

Technical Report. DTIC Document .
QQ ：
1071955807
2021 年 7 月 12 日
目录 1 马尔可夫过程
CONTENTS 2 马尔可夫奖励过程
3 马尔可夫决策过程
第一部分 Markov Process 马尔可夫过程
马尔可夫性质
状态转移矩阵
基本构成要素
马尔可夫性质
马尔可夫过程（ Markov Process ）

无记忆的随机过程 (memoryless random process)
随机状态序列具有马尔可夫性质
未来只与现在
如何体现有关
下一状态
而与过去无关？
由上一状态决定
… … …
状态集合
𝑺𝟏 𝑺𝟐 𝑺𝟑 1
状态转移矩阵
状态转移矩阵（ State Transition Matrix ）

定义了从所有状态转移到所有后继状态的概率
[]
0.2 0.3 0.4
[ ]
0.5 0.1 0.4 𝑷 𝟏𝟏 ⋯ 𝑷𝟏 𝒏
𝑷= ⋮ ⋱ ⋮
0.3 0.6 0.2 𝑷𝒏𝟏 ⋯ 𝑷 𝒏𝒏
2
基本构成要素
马尔可夫过程（ Markov Process ）

马尔可夫过程（或马尔可夫链）是一个二元组 <,>
• （有限）状态集
• 状态转移概率矩阵
[]
3
第二部分 MRPs 马尔可夫奖励过程
回报和值函数
MRPs 的贝尔曼方程
贝尔曼方程的矩阵形式
基本构成要素
马尔可夫奖励过程（ Markov Reward Process ）

马尔可夫奖励过程是一个四元组 <>
• 状态转移概率矩阵 []
• 奖励函数 []
• 折扣因子 / 衰减系数 𝜸 ∈[𝟎 ,𝟏]
4
奖励函数
• 奖励函数 []
一定分布
𝑺𝟐 []
𝑹 𝒕 +𝟏
𝑹 𝒕+𝟏 []
𝑺𝟏 𝑹 𝑺𝟒 []
𝒕 +𝟏
𝑺𝟑
[]
5
回报和值函数
• 折扣因子 / 衰减系数 𝜸 ∈[𝟎 ,𝟏]

回报（ Return ）：是从时间开始的总折扣奖励
∞
𝑮𝒕 = 𝑹𝒕 +𝟏+𝜸 𝑹𝒕+ 𝟐+𝜸 𝑹𝒕 +𝟑 +…= ∑ 𝜸 𝑹𝒕 +𝒌+ 𝟏
𝟐 𝒌
𝒌=𝟎
表示所有奖励在当前的价值
• 未来是不确定的
• 未来很长
𝒕 𝒕 +𝟏 𝒕 +𝟐 6
回报和值函数
值函数（ Value Function ）：表示一个状态的长期价值
𝐕 ( 𝐬 )=𝐄 [𝑮𝒕 ∨𝑺 𝒕 =𝒔 ] 𝑹 𝒕+𝟏 𝑹 𝒕+𝟐 𝑹 𝒕+𝟑

𝑹 𝒕+𝟏 𝑹 𝒕+𝟐 𝑹 𝒕+𝟑
𝑹 𝒕+𝟏 𝑹 𝒕+𝟐 𝑹 𝒕+𝟑
𝑹 𝒕+𝟏 𝑹 𝒕+𝟐 𝑹 𝒕+𝟑 ……
𝑺𝒕 𝑹 𝒕+𝟏 𝑹 𝒕+𝟐 𝑹 𝒕+𝟑
𝑹 𝒕+𝟏 𝑹 𝒕+𝟐 𝑹 𝒕+𝟑
∞
𝑮𝒕 = 𝑹𝒕 +𝟏+𝜸 𝑹𝒕+ 𝟐+𝜸 𝑹𝒕 +𝟑 +…= ∑ 𝜸 𝑹𝒕 +𝒌+ 𝟏
𝟐 𝒌
7
𝒌=𝟎
MRPs 的贝尔曼方程
MRPs 的贝尔曼方程（ Bellman Equation for MRPs ）
𝐕 ( 𝐬 )=𝐄 [𝑮𝒕 ∨𝑺 𝒕 =𝒔 ]
∞
𝐺𝑡 = 𝑅𝑡 +1 +𝛾 𝑅 𝑡 +2+ 𝛾 𝑅𝑡 +3 + …= ∑ 𝛾 𝑅𝑡 + 𝑘+1
2 𝑘
𝑘=0
𝜸 𝑽 ( 𝑺 𝒕+ 𝟏)
𝐕 ( 𝐬 )=𝐄 [ 𝑹𝒕 +𝟏+𝜸 𝑽 ( 𝑺𝒕+𝟏 ) ∨𝑺𝒕 =𝒔 ] 贝尔曼方程

8
MRPs 的贝尔曼方程
𝐕 ( 𝐬 )=𝐄 [ 𝑹𝒕 +𝟏+𝜸 𝑽 ( 𝑺𝒕+𝟏 ) ∨𝑺𝒕 =𝒔 ] 若已知状态转移矩阵 P

𝑽 (𝒔)
[] 𝑽 ( 𝒔′ )
[] 𝑷𝒔𝒔
′
𝑷𝒔𝒔
′ 𝑽 ( 𝒔′ )
𝑷𝒔𝒔
𝑽 ( 𝒔 )= 𝑹 𝒔+𝜸 ∑ 𝑷 𝒔 𝒔 𝑽 ( 𝒔 ) ′ ′
′
𝑹𝒔 𝑽 ( 𝒔′ )
′
𝒔 ∈𝑺
9
贝尔曼方程的矩阵形式
贝尔曼方程矩阵形式
𝑽 ( 𝒔 )= 𝑹 𝒔+𝜸 ∑ 𝑷 𝒔 𝒔 𝑽 ( 𝒔 )
′
′
′
𝒔 ∈𝑺
𝑛 ∗1 𝑛 ∗1 𝑛 ∗𝑛 𝑛 ∗1
𝑽 = 𝑹+𝜸 𝑷𝑽 复杂度 n³
 动态规划 (Dynamic programming)
（ 𝟏− 𝜸 𝑷 ） 𝑽 = 𝑹
 蒙特卡洛评估 (Monte-Carlo evaluation)
−𝟏
𝑽 =（ 𝟏 −𝜸 𝑷 ） 𝑹  时序差分学习 (Temporal-Difference learning) 10
第三部分 MDP 马尔可夫决策过程
策略和值函数
贝尔曼期望方程
最优值函数和最优策略
贝尔曼最优方程及求解
基本构成要素
马尔可夫决策过程（ Markov Decision Process ）

马尔可夫决策过程是一个五元组 <>
• A: （有限）动作集
• 状态转移概率矩阵 []
• 奖励函数 []
• 折扣因子 / 衰减系数 𝛾 ∈[0,1] 11
策略
策略（ Policy ）
是给定状态的动作分布 𝝅 ( 𝒂| 𝒔 ) =𝑷 [ 𝑨 𝒕 =𝒂∨𝑺𝒕 =𝒔 ]
随机变量
• 策略完全决定智能体行为
• MDP 策略依赖于当前状态 ( 无关历史 )
• 策略是固定的 ( 无关时间 ) 𝑨 𝒕 𝝅 ( ·|𝑺𝒕 ) , 任意 𝒕 ＞ 𝟎
12
策略
给定一个马尔可夫决策过程和策略
其可转化为马尔可夫过程和马尔可夫奖励过程
<,> <>
𝒂𝟏 𝒑 𝟏
𝝅
𝑷𝒂𝒔𝟐, 𝒔𝒑′ 𝟐
𝒂𝟑 𝒑 𝟑
𝒔 𝒔′
13
值函数
状态值函数（ State-value function ）

𝝅 ( 𝒂| 𝒔 ) 𝝅 ( 𝒂| 𝒔 ′ )
𝒗 𝝅 ( 𝒔 ) =𝑬 𝝅 [ 𝑮 𝒕 ∨𝑺𝒕 =𝒔 ]
𝒔 𝒔′ 𝒔…
′′
动作值函数（ Action-value
function ） 𝒂 𝝅 ( 𝒂| 𝒔 ′ )
𝒒 𝝅 ( 𝒔 , 𝒂 )= 𝑬 𝝅 [ 𝑮𝒕 ∨𝑺 𝒕 =𝒔 , 𝑨 𝒕 =𝒂]
𝒔 𝒔′ 𝒔…
′′
14
贝尔曼期望方程
状态值函数（ State-value function ）

𝒗 𝝅 ( 𝒔 ) =𝑬 𝝅 [ 𝑮 𝒕 ∨𝑺𝒕 =𝒔 ]
∞
𝑮𝒕 = 𝑹𝒕 +𝟏+𝜸 𝑹𝒕+ 𝟐+𝜸 𝑹𝒕 +𝟑 +…= ∑ 𝜸 𝑹𝒕 +𝒌+ 𝟏
𝟐 𝒌
𝒌=𝟎
立即奖励后继状态的折扣价值
𝒗 𝝅 ( 𝒔 ) = 𝑬 𝝅 [ 𝑹𝒕 +𝟏 +𝜸 𝒗 𝝅 ( 𝑺 𝒕 +𝟏 )∨ 𝑺 𝒕 = 𝒔]
状态值函数的贝尔曼期望方程 15
动作值函数（ Action-value
function ）
𝒒 𝝅 ( 𝒔 , 𝒂 )= 𝑬 𝝅 [ 𝑮𝒕 ∨𝑺 𝒕 =𝒔 , 𝑨 𝒕 =𝒂]
∞
𝑮𝒕 = 𝑹𝒕 +𝟏+𝜸 𝑹𝒕+ 𝟐+𝜸 𝑹𝒕 +𝟑 +…= ∑ 𝜸 𝑹𝒕 +𝒌+ 𝟏
𝟐 𝒌
𝒌=𝟎
立即奖励后继状态的折扣价值
𝒒 𝝅 ( 𝒔 , 𝒂 )= 𝑬 𝝅 [ 𝑹𝒕+ 𝟏+𝜸 𝒒 𝝅 ( 𝑺 𝒕+𝟏 , 𝑨𝒕 +𝟏 )∨𝑺 𝒕 =𝒔 , 𝑨 𝒕 =𝒂]
动作值函数的贝尔曼期望方程 16
𝒗 𝝅 ( 𝒔) 𝒔 𝒒 𝝅 ( 𝒔,𝒂 ) 𝒔,𝒂
𝒒 𝝅 ( 𝒔,𝒂 ) 𝒂 𝒗 𝝅 ( 𝒔′ ) 𝒔′
𝒗 𝝅 ( 𝒔 ) = ∑ 𝝅(𝒂∨𝒔)𝒒 𝝅 ( 𝒔,𝒂 ) 𝒒 𝝅 ( 𝒔,𝒂 )= 𝑹 +𝜸 ∑ 𝑷 𝒗 𝝅 ( 𝒔 ′ )
𝒂
𝒔
𝒂
𝒔 𝒔′
′
𝒂∈ 𝑨 𝒔 ∈𝑺
某一个状态的价值可以用该某一个动作的价值可以用该
状态下所有动作的价值表述状态后继状态的价值表述 17
最优值函数和最优策略
最优状态值函数（ Optimal state-value

function ）
𝒗 ∗ ( 𝒔 )=𝒎𝒂𝒙 𝒗 𝝅 ( 𝒔) 最大化
𝝅
所有的
最优动作值函数（ Optimal action-value
function ）
𝒒 ( 𝒔 , 𝒂 ) =𝒎𝒂𝒙 𝒒 𝝅 ( 𝒔 , 𝒂)
∗
𝝅
最优策略（ Optimal policy ）•确定值

存在一个最优策略，使
𝝅 ∗ ≥ 𝒂𝒏𝒚 𝝅 • 所有最优策略都能取得最优状态值函数
注：若≥ ，则 • 所有最优策略都能取得最优动作值函数 18
贝尔曼最优方程及求解
贝尔曼最优方程（ Bellman optimality

equation ）
回顾：贝尔曼期望方程
𝒗 𝝅 ( 𝒔 ) = ∑ 𝝅(𝒂∨𝒔)𝒒 𝝅 ( 𝒔,𝒂 ) 𝒒 𝝅 ( 𝒔,𝒂 )= 𝑹 +𝜸 ∑ 𝑷 𝒗 𝝅 ( 𝒔 ′ )

𝒂
𝒔
𝒂
𝒔 𝒔′
′
𝒂∈ 𝑨 状态值函数的贝尔曼最优方程 𝒔 ∈𝑺
𝒒 ∗ ( 𝒔 ,𝒂) =𝑹 +𝜸 ∑ 𝑷 𝒗 ( 𝒔′ )
𝒂 𝒂
𝒗 ∗ ( 𝒔 )=𝒎𝒂𝒙 𝒒 ∗ ( 𝒔 , 𝒂 ) 𝒔 𝒔𝒔′ ∗
𝒂 ′
𝒔 ∈𝑺
动作值函数的贝尔曼最优方程
19
贝尔曼最优方程及求解
状态值函数的贝尔曼最优方程
𝒗 ∗ ( 𝒔 )=𝒎𝒂𝒙 [ 𝑹 +𝜸
𝒂
𝒂
𝒔 ∑𝑷
′
𝒂
𝒔𝒔
′ 𝒗∗ ( 𝒔 ) ]
′
𝒔 ∈𝑺
动作值函数的贝尔曼最优方程 •值迭代 (Value Iteration)
𝒒 ∗ ( 𝒔 ,𝒂) =𝑹 +𝜸 ∑ 𝑷 𝒎𝒂𝒙 𝒒∗ ( 𝒔′ , 𝒂′Iteration)

𝒂 𝒂 •策略迭代 (Policy
𝒔 𝒔𝒔′ )
′
𝒔 ∈𝑺 𝒂′ •Q-Learning
•Sarsa
20
谢谢聆听，请您指导
THANKS

马尔科夫决策过程-录屏

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

马尔科夫决策过程-录屏

Uploaded by

Copyright:

Available Formats

马尔可夫决策过程

Bellman, R. , 1957. A Markovian Decision Process.

马尔可夫过程（ Markov Process ）

状态转移矩阵（ State Transition Matrix ）

马尔可夫过程（ Markov Process ）

马尔可夫奖励过程（ Markov Reward Process ）

• 折扣因子 / 衰减系数 𝜸 ∈[𝟎 ,𝟏]

值函数（ Value Function ）：表示一个状态的长期价值

𝐕 ( 𝐬 )=𝐄 [𝑮𝒕 ∨𝑺 𝒕 =𝒔 ] 𝑹 𝒕+𝟏 𝑹 𝒕+𝟐 𝑹 𝒕+𝟑

MRPs 的贝尔曼方程（ Bellman Equation for MRPs ）

𝐕 ( 𝐬 )=𝐄 [ 𝑹𝒕 +𝟏+𝜸 𝑽 ( 𝑺𝒕+𝟏 ) ∨𝑺𝒕 =𝒔 ] 贝尔曼方程

𝐕 ( 𝐬 )=𝐄 [ 𝑹𝒕 +𝟏+𝜸 𝑽 ( 𝑺𝒕+𝟏 ) ∨𝑺𝒕 =𝒔 ] 若已知状态转移矩阵 P

马尔可夫决策过程（ Markov Decision Process ）

• MDP 策略依赖于当前状态 ( 无关历史 )

• 策略是固定的 ( 无关时间 ) 𝑨 𝒕 𝝅 ( ·|𝑺𝒕 ) , 任意 𝒕 ＞ 𝟎

状态值函数（ State-value function ）

状态值函数（ State-value function ）

最优状态值函数（ Optimal state-value

最优策略（ Optimal policy ）•确定值

贝尔曼最优方程（ Bellman optimality

𝒗 𝝅 ( 𝒔 ) = ∑ 𝝅(𝒂∨𝒔)𝒒 𝝅 ( 𝒔,𝒂 ) 𝒒 𝝅 ( 𝒔,𝒂 )= 𝑹 +𝜸 ∑ 𝑷 𝒗 𝝅 ( 𝒔 ′ )

动作值函数的贝尔曼最优方程 •值迭代 (Value Iteration)

𝒒 ∗ ( 𝒔 ,𝒂) =𝑹 +𝜸 ∑ 𝑷 𝒎𝒂𝒙 𝒒∗ ( 𝒔′ , 𝒂′Iteration)

You might also like