Professional Documents
Culture Documents
马尔科夫决策过程-录屏
马尔科夫决策过程-录屏
QQ :
1071955807
2021 年 7 月 12 日
目录 1 马尔可夫过程
CONTENTS 2 马尔可夫奖励过程
3 马尔可夫决策过程
第一部分 Markov Process 马尔可夫过程
马尔可夫性质
状态转移矩阵
基本构成要素
马尔可夫性质
未来只与现在
如何体现 有关
下一状态
而与过去无关?
由上一状态决定
… … …
状态集合
𝑺𝟏 𝑺𝟐 𝑺𝟑 1
状态转移矩阵
[]
0.2 0.3 0.4
[ ]
0.5 0.1 0.4 𝑷 𝟏𝟏 ⋯ 𝑷𝟏 𝒏
𝑷= ⋮ ⋱ ⋮
0.3 0.6 0.2 𝑷𝒏𝟏 ⋯ 𝑷 𝒏𝒏
2
基本构成要素
• (有限)状态集
• 状态转移概率矩阵
[]
3
第二部分 MRPs 马尔可夫奖励过程
基本构成要素
回报和值函数
MRPs 的贝尔曼方程
贝尔曼方程的矩阵形式
基本构成要素
• (有限)状态集
• 状态转移概率矩阵 []
• 奖励函数 []
• 折扣因子 / 衰减系数 𝜸 ∈[𝟎 ,𝟏]
4
奖励函数
• 奖励函数 []
一定分布
𝑺𝟐 []
𝑹 𝒕 +𝟏
𝑹 𝒕+𝟏 []
𝑺𝟏 𝑹 𝑺𝟒 []
𝒕 +𝟏
𝑺𝟑
[]
5
回报和值函数
𝒌=𝟎
表示所有奖励在当前的价值
• 未来是不确定的
• 未来很长
𝒕 𝒕 +𝟏 𝒕 +𝟐 6
回报和值函数
𝐕 ( 𝐬 )=𝐄 [𝑮𝒕 ∨𝑺 𝒕 =𝒔 ]
∞
𝐺𝑡 = 𝑅𝑡 +1 +𝛾 𝑅 𝑡 +2+ 𝛾 𝑅𝑡 +3 + …= ∑ 𝛾 𝑅𝑡 + 𝑘+1
2 𝑘
𝑘=0
𝜸 𝑽 ( 𝑺 𝒕+ 𝟏)
𝑷𝒔𝒔
′ 𝑽 ( 𝒔′ )
𝑷𝒔𝒔
𝑽 ( 𝒔 )= 𝑹 𝒔+𝜸 ∑ 𝑷 𝒔 𝒔 𝑽 ( 𝒔 ) ′ ′
′
𝑹𝒔 𝑽 ( 𝒔′ )
′
𝒔 ∈𝑺
9
贝尔曼方程的矩阵形式
贝尔曼方程矩阵形式
𝑽 ( 𝒔 )= 𝑹 𝒔+𝜸 ∑ 𝑷 𝒔 𝒔 𝑽 ( 𝒔 )
′
′
′
𝒔 ∈𝑺
𝑛 ∗1 𝑛 ∗1 𝑛 ∗𝑛 𝑛 ∗1
𝑽 = 𝑹+𝜸 𝑷𝑽 复杂度 n³
动态规划 (Dynamic programming)
( 𝟏− 𝜸 𝑷 ) 𝑽 = 𝑹
蒙特卡洛评估 (Monte-Carlo evaluation)
−𝟏
𝑽 =( 𝟏 −𝜸 𝑷 ) 𝑹 时序差分学习 (Temporal-Difference learning) 10
第三部分 MDP 马尔可夫决策过程
基本构成要素
策略和值函数
贝尔曼期望方程
最优值函数和最优策略
贝尔曼最优方程及求解
基本构成要素
• (有限)状态集
• A: (有限)动作集
• 状态转移概率矩阵 []
• 奖励函数 []
• 折扣因子 / 衰减系数 𝛾 ∈[0,1] 11
策略
策略( Policy )
是给定状态的动作分布 𝝅 ( 𝒂| 𝒔 ) =𝑷 [ 𝑨 𝒕 =𝒂∨𝑺𝒕 =𝒔 ]
随机变量
• 策略完全决定智能体行为
12
策略
给定一个马尔可夫决策过程和策略
其可转化为马尔可夫过程和马尔可夫奖励过程
<,> <>
𝒂𝟏 𝒑 𝟏
𝝅
𝑷𝒂𝒔𝟐, 𝒔𝒑′ 𝟐
𝒂𝟑 𝒑 𝟑
𝒔 𝒔′
13
值函数
动作值函数( Action-value
function ) 𝒂 𝝅 ( 𝒂| 𝒔 ′ )
𝒒 𝝅 ( 𝒔 , 𝒂 )= 𝑬 𝝅 [ 𝑮𝒕 ∨𝑺 𝒕 =𝒔 , 𝑨 𝒕 =𝒂]
𝒔 𝒔′ 𝒔…
′′
14
贝尔曼期望方程
𝒌=𝟎
立即奖励 后继状态的折扣价值
𝒗 𝝅 ( 𝒔 ) = 𝑬 𝝅 [ 𝑹𝒕 +𝟏 +𝜸 𝒗 𝝅 ( 𝑺 𝒕 +𝟏 )∨ 𝑺 𝒕 = 𝒔]
状态值函数的贝尔曼期望方程 15
贝尔曼期望方程
动作值函数( Action-value
function )
𝒒 𝝅 ( 𝒔 , 𝒂 )= 𝑬 𝝅 [ 𝑮𝒕 ∨𝑺 𝒕 =𝒔 , 𝑨 𝒕 =𝒂]
∞
𝑮𝒕 = 𝑹𝒕 +𝟏+𝜸 𝑹𝒕+ 𝟐+𝜸 𝑹𝒕 +𝟑 +…= ∑ 𝜸 𝑹𝒕 +𝒌+ 𝟏
𝟐 𝒌
𝒌=𝟎
立即奖励 后继状态的折扣价值
𝒒 𝝅 ( 𝒔 , 𝒂 )= 𝑬 𝝅 [ 𝑹𝒕+ 𝟏+𝜸 𝒒 𝝅 ( 𝑺 𝒕+𝟏 , 𝑨𝒕 +𝟏 )∨𝑺 𝒕 =𝒔 , 𝑨 𝒕 =𝒂]
动作值函数的贝尔曼期望方程 16
贝尔曼期望方程
𝒗 𝝅 ( 𝒔) 𝒔 𝒒 𝝅 ( 𝒔,𝒂 ) 𝒔,𝒂
𝒒 𝝅 ( 𝒔,𝒂 ) 𝒂 𝒗 𝝅 ( 𝒔′ ) 𝒔′
𝒗 𝝅 ( 𝒔 ) = ∑ 𝝅(𝒂∨𝒔)𝒒 𝝅 ( 𝒔,𝒂 ) 𝒒 𝝅 ( 𝒔,𝒂 )= 𝑹 +𝜸 ∑ 𝑷 𝒗 𝝅 ( 𝒔 ′ )
𝒂
𝒔
𝒂
𝒔 𝒔′
′
𝒂∈ 𝑨 𝒔 ∈𝑺
某一个状态的价值可以用该 某一个动作的价值可以用该
状态下所有动作的价值表述 状态后继状态的价值表述 17
最优值函数和最优策略
𝒒 ∗ ( 𝒔 ,𝒂) =𝑹 +𝜸 ∑ 𝑷 𝒗 ( 𝒔′ )
𝒂 𝒂
𝒗 ∗ ( 𝒔 )=𝒎𝒂𝒙 𝒒 ∗ ( 𝒔 , 𝒂 ) 𝒔 𝒔𝒔′ ∗
𝒂 ′
𝒔 ∈𝑺
动作值函数的贝尔曼最优方程
19
贝尔曼最优方程及求解
状态值函数的贝尔曼最优方程
𝒗 ∗ ( 𝒔 )=𝒎𝒂𝒙 [ 𝑹 +𝜸
𝒂
𝒂
𝒔 ∑𝑷
′
𝒂
𝒔𝒔
′ 𝒗∗ ( 𝒔 ) ]
′
𝒔 ∈𝑺