Download as pptx, pdf, or txt
Download as pptx, pdf, or txt
You are on page 1of 26

马尔可夫决策过程

Bellman, R. , 1957. A Markovian Decision Process.


Technical Report. DTIC Document .

QQ :
1071955807
2021 年 7 月 12 日
目录 1 马尔可夫过程

CONTENTS 2 马尔可夫奖励过程

3 马尔可夫决策过程
第一部分 Markov Process 马尔可夫过程

马尔可夫性质
状态转移矩阵
基本构成要素
马尔可夫性质

马尔可夫过程( Markov Process )


无记忆的随机过程 (memoryless random process)
随机状态序列具有马尔可夫性质

未来只与现在
如何体现 有关
下一状态

而与过去无关?
由上一状态决定

… … …
状态集合
𝑺𝟏 𝑺𝟐 𝑺𝟑 1
状态转移矩阵

状态转移矩阵( State Transition Matrix )


定义了从所有状态转移到所有后继状态的概率

[]
0.2 0.3 0.4

[ ]
0.5 0.1 0.4 𝑷 𝟏𝟏 ⋯ 𝑷𝟏 𝒏
𝑷= ⋮ ⋱ ⋮
0.3 0.6 0.2 𝑷𝒏𝟏 ⋯ 𝑷 𝒏𝒏

2
基本构成要素

马尔可夫过程( Markov Process )


马尔可夫过程(或马尔可夫链)是一个二元组 <,>

• (有限)状态集

• 状态转移概率矩阵
[]
3
第二部分 MRPs 马尔可夫奖励过程

基本构成要素
回报和值函数
MRPs 的贝尔曼方程
贝尔曼方程的矩阵形式
基本构成要素

马尔可夫奖励过程( Markov Reward Process )


马尔可夫奖励过程是一个四元组 <>

• (有限)状态集
• 状态转移概率矩阵 []
• 奖励函数 []
• 折扣因子 / 衰减系数 𝜸 ∈[𝟎 ,𝟏]
4
奖励函数

• 奖励函数 []
一定分布

𝑺𝟐 []
𝑹 𝒕 +𝟏
𝑹 𝒕+𝟏 []
𝑺𝟏 𝑹 𝑺𝟒 []
𝒕 +𝟏
𝑺𝟑
[]
5
回报和值函数

• 折扣因子 / 衰减系数 𝜸 ∈[𝟎 ,𝟏]


回报( Return ):是从时间开始的总折扣奖励

𝑮𝒕 = 𝑹𝒕 +𝟏+𝜸 𝑹𝒕+ 𝟐+𝜸 𝑹𝒕 +𝟑 +…= ∑ 𝜸 𝑹𝒕 +𝒌+ 𝟏
𝟐 𝒌

𝒌=𝟎

表示所有奖励在当前的价值

• 未来是不确定的
• 未来很长
𝒕 𝒕 +𝟏 𝒕 +𝟐 6
回报和值函数

值函数( Value Function ):表示一个状态的长期价值

𝐕 ( 𝐬 )=𝐄 [𝑮𝒕 ∨𝑺 𝒕 =𝒔 ] 𝑹 𝒕+𝟏 𝑹 𝒕+𝟐 𝑹 𝒕+𝟑


𝑹 𝒕+𝟏 𝑹 𝒕+𝟐 𝑹 𝒕+𝟑
𝑹 𝒕+𝟏 𝑹 𝒕+𝟐 𝑹 𝒕+𝟑
𝑹 𝒕+𝟏 𝑹 𝒕+𝟐 𝑹 𝒕+𝟑 ……
𝑺𝒕 𝑹 𝒕+𝟏 𝑹 𝒕+𝟐 𝑹 𝒕+𝟑
𝑹 𝒕+𝟏 𝑹 𝒕+𝟐 𝑹 𝒕+𝟑

𝑮𝒕 = 𝑹𝒕 +𝟏+𝜸 𝑹𝒕+ 𝟐+𝜸 𝑹𝒕 +𝟑 +…= ∑ 𝜸 𝑹𝒕 +𝒌+ 𝟏
𝟐 𝒌
7
𝒌=𝟎
MRPs 的贝尔曼方程

MRPs 的贝尔曼方程( Bellman Equation for MRPs )

𝐕 ( 𝐬 )=𝐄 [𝑮𝒕 ∨𝑺 𝒕 =𝒔 ]

𝐺𝑡 = 𝑅𝑡 +1 +𝛾 𝑅 𝑡 +2+ 𝛾 𝑅𝑡 +3 + …= ∑ 𝛾 𝑅𝑡 + 𝑘+1
2 𝑘

𝑘=0
𝜸 𝑽 ( 𝑺 𝒕+ 𝟏)

𝐕 ( 𝐬 )=𝐄 [ 𝑹𝒕 +𝟏+𝜸 𝑽 ( 𝑺𝒕+𝟏 ) ∨𝑺𝒕 =𝒔 ] 贝尔曼方程


8
MRPs 的贝尔曼方程

𝐕 ( 𝐬 )=𝐄 [ 𝑹𝒕 +𝟏+𝜸 𝑽 ( 𝑺𝒕+𝟏 ) ∨𝑺𝒕 =𝒔 ] 若已知状态转移矩阵 P


𝑽 (𝒔)
[] 𝑽 ( 𝒔′ )
[] 𝑷𝒔𝒔

𝑷𝒔𝒔
′ 𝑽 ( 𝒔′ )
𝑷𝒔𝒔
𝑽 ( 𝒔 )= 𝑹 𝒔+𝜸 ∑ 𝑷 𝒔 𝒔 𝑽 ( 𝒔 ) ′ ′


𝑹𝒔 𝑽 ( 𝒔′ )

𝒔 ∈𝑺

9
贝尔曼方程的矩阵形式

贝尔曼方程矩阵形式

𝑽 ( 𝒔 )= 𝑹 𝒔+𝜸 ∑ 𝑷 𝒔 𝒔 𝑽 ( 𝒔 )



𝒔 ∈𝑺
𝑛 ∗1 𝑛 ∗1 𝑛 ∗𝑛 𝑛 ∗1
𝑽 = 𝑹+𝜸 𝑷𝑽 复杂度 n³
 动态规划 (Dynamic programming)
( 𝟏− 𝜸 𝑷 ) 𝑽 = 𝑹
 蒙特卡洛评估 (Monte-Carlo evaluation)
−𝟏
𝑽 =( 𝟏 −𝜸 𝑷 ) 𝑹  时序差分学习 (Temporal-Difference learning) 10
第三部分 MDP 马尔可夫决策过程
基本构成要素
策略和值函数
贝尔曼期望方程
最优值函数和最优策略
贝尔曼最优方程及求解
基本构成要素

马尔可夫决策过程( Markov Decision Process )


马尔可夫决策过程是一个五元组 <>

• (有限)状态集
• A: (有限)动作集
• 状态转移概率矩阵 []
• 奖励函数 []
• 折扣因子 / 衰减系数 𝛾 ∈[0,1] 11
策略

策略( Policy )
是给定状态的动作分布 𝝅 ( 𝒂| 𝒔 ) =𝑷 [ 𝑨 𝒕 =𝒂∨𝑺𝒕 =𝒔 ]
随机变量

• 策略完全决定智能体行为

• MDP 策略依赖于当前状态 ( 无关历史 )

• 策略是固定的 ( 无关时间 ) 𝑨 𝒕 𝝅 ( ·|𝑺𝒕 ) , 任意 𝒕 > 𝟎

12
策略

给定一个马尔可夫决策过程和策略

其可转化为马尔可夫过程和马尔可夫奖励过程
<,> <>

𝒂𝟏 𝒑 𝟏
𝝅
𝑷𝒂𝒔𝟐, 𝒔𝒑′ 𝟐
𝒂𝟑 𝒑 𝟑
𝒔 𝒔′
13
值函数

状态值函数( State-value function )


𝝅 ( 𝒂| 𝒔 ) 𝝅 ( 𝒂| 𝒔 ′ )
𝒗 𝝅 ( 𝒔 ) =𝑬 𝝅 [ 𝑮 𝒕 ∨𝑺𝒕 =𝒔 ]
𝒔 𝒔′ 𝒔…
′′

动作值函数( Action-value
function ) 𝒂 𝝅 ( 𝒂| 𝒔 ′ )
𝒒 𝝅 ( 𝒔 , 𝒂 )= 𝑬 𝝅 [ 𝑮𝒕 ∨𝑺 𝒕 =𝒔 , 𝑨 𝒕 =𝒂]
𝒔 𝒔′ 𝒔…
′′

14
贝尔曼期望方程

状态值函数( State-value function )


𝒗 𝝅 ( 𝒔 ) =𝑬 𝝅 [ 𝑮 𝒕 ∨𝑺𝒕 =𝒔 ]

𝑮𝒕 = 𝑹𝒕 +𝟏+𝜸 𝑹𝒕+ 𝟐+𝜸 𝑹𝒕 +𝟑 +…= ∑ 𝜸 𝑹𝒕 +𝒌+ 𝟏
𝟐 𝒌

𝒌=𝟎
立即奖励 后继状态的折扣价值
𝒗 𝝅 ( 𝒔 ) = 𝑬 𝝅 [ 𝑹𝒕 +𝟏 +𝜸 𝒗 𝝅 ( 𝑺 𝒕 +𝟏 )∨ 𝑺 𝒕 = 𝒔]

状态值函数的贝尔曼期望方程 15
贝尔曼期望方程

动作值函数( Action-value
function )
𝒒 𝝅 ( 𝒔 , 𝒂 )= 𝑬 𝝅 [ 𝑮𝒕 ∨𝑺 𝒕 =𝒔 , 𝑨 𝒕 =𝒂]

𝑮𝒕 = 𝑹𝒕 +𝟏+𝜸 𝑹𝒕+ 𝟐+𝜸 𝑹𝒕 +𝟑 +…= ∑ 𝜸 𝑹𝒕 +𝒌+ 𝟏
𝟐 𝒌

𝒌=𝟎
立即奖励 后继状态的折扣价值
𝒒 𝝅 ( 𝒔 , 𝒂 )= 𝑬 𝝅 [ 𝑹𝒕+ 𝟏+𝜸 𝒒 𝝅 ( 𝑺 𝒕+𝟏 , 𝑨𝒕 +𝟏 )∨𝑺 𝒕 =𝒔 , 𝑨 𝒕 =𝒂]

动作值函数的贝尔曼期望方程 16
贝尔曼期望方程

𝒗 𝝅 ( 𝒔) 𝒔 𝒒 𝝅 ( 𝒔,𝒂 ) 𝒔,𝒂
𝒒 𝝅 ( 𝒔,𝒂 ) 𝒂 𝒗 𝝅 ( 𝒔′ ) 𝒔′
𝒗 𝝅 ( 𝒔 ) = ∑ 𝝅(𝒂∨𝒔)𝒒 𝝅 ( 𝒔,𝒂 ) 𝒒 𝝅 ( 𝒔,𝒂 )= 𝑹 +𝜸 ∑ 𝑷 𝒗 𝝅 ( 𝒔 ′ )
𝒂
𝒔
𝒂
𝒔 𝒔′

𝒂∈ 𝑨 𝒔 ∈𝑺
某一个状态的价值可以用该 某一个动作的价值可以用该
状态下所有动作的价值表述 状态后继状态的价值表述 17
最优值函数和最优策略

最优状态值函数( Optimal state-value


function )
𝒗 ∗ ( 𝒔 )=𝒎𝒂𝒙 𝒗 𝝅 ( 𝒔) 最大化
𝝅
所有的
最优动作值函数( Optimal action-value
function )
𝒒 ( 𝒔 , 𝒂 ) =𝒎𝒂𝒙 𝒒 𝝅 ( 𝒔 , 𝒂)

𝝅

最优策略( Optimal policy )•确定值


存在一个最优策略,使
𝝅 ∗ ≥ 𝒂𝒏𝒚 𝝅 • 所有最优策略都能取得最优状态值函数
注:若≥ ,则 • 所有最优策略都能取得最优动作值函数 18
贝尔曼最优方程及求解

贝尔曼最优方程( Bellman optimality


equation )
回顾:贝尔曼期望方程

𝒗 𝝅 ( 𝒔 ) = ∑ 𝝅(𝒂∨𝒔)𝒒 𝝅 ( 𝒔,𝒂 ) 𝒒 𝝅 ( 𝒔,𝒂 )= 𝑹 +𝜸 ∑ 𝑷 𝒗 𝝅 ( 𝒔 ′ )


𝒂
𝒔
𝒂
𝒔 𝒔′

𝒂∈ 𝑨 状态值函数的贝尔曼最优方程 𝒔 ∈𝑺

𝒒 ∗ ( 𝒔 ,𝒂) =𝑹 +𝜸 ∑ 𝑷 𝒗 ( 𝒔′ )
𝒂 𝒂
𝒗 ∗ ( 𝒔 )=𝒎𝒂𝒙 𝒒 ∗ ( 𝒔 , 𝒂 ) 𝒔 𝒔𝒔′ ∗
𝒂 ′
𝒔 ∈𝑺
动作值函数的贝尔曼最优方程
19
贝尔曼最优方程及求解

状态值函数的贝尔曼最优方程
𝒗 ∗ ( 𝒔 )=𝒎𝒂𝒙 [ 𝑹 +𝜸
𝒂
𝒂
𝒔 ∑𝑷

𝒂
𝒔𝒔
′ 𝒗∗ ( 𝒔 ) ]

𝒔 ∈𝑺

动作值函数的贝尔曼最优方程 •值迭代 (Value Iteration)

𝒒 ∗ ( 𝒔 ,𝒂) =𝑹 +𝜸 ∑ 𝑷 𝒎𝒂𝒙 𝒒∗ ( 𝒔′ , 𝒂′Iteration)


𝒂 𝒂 •策略迭代 (Policy
𝒔 𝒔𝒔′ )

𝒔 ∈𝑺 𝒂′ •Q-Learning
•Sarsa
20
谢谢聆听,请您指导
THANKS

You might also like