Download as pdf or txt
Download as pdf or txt
You are on page 1of 26

马尔可夫决策过程

Bellman, R. , 1957. A Markovian Decision Process.


Technical Report. DTIC Document .

QQ:1071955807
2021年7月12日
目录 1 马尔可夫过程

CONTENTS 2 马尔可夫奖励过程

3 马尔可夫决策过程
第一部分 Markov Process 马尔可夫过程

马尔可夫性质

状态转移矩阵

基本构成要素
马尔可夫性质

马尔可夫过程(Markov Process)
无记忆的随机过程(memoryless random process)
随机状态序列𝑺𝟏 , 𝑺𝟐 , … …具有马尔可夫性质

未来只与现在
如何体现 有关
下一状态

而与过去无关?
由上一状态决定

… … …
状态集合 𝐒
𝑺𝟏 𝑺𝟐 𝑺𝟑 1
状态转移矩阵

状态转移矩阵(State Transition Matrix)


𝑷定义了从所有状态𝒔转移到所有后继状态𝒔′ 的概率

𝑺𝟏 𝑺𝟐 𝑺𝟑 𝑷𝒔𝒔′ = 𝑷 [ 𝑺𝒕+𝟏 = 𝒔′ | 𝑺𝒕 = 𝒔 ]
𝑺𝟏 0.2 0.3 0.4
𝑷𝟏𝟏 ⋯ 𝑷𝟏𝒏
𝑺𝟐 0.5 0.1 0.4 𝑷= ⋮ ⋱ ⋮
𝑺𝟑 0.3 0.6 0.2 𝑷𝒏𝟏 ⋯ 𝑷𝒏𝒏

2
基本构成要素

马尔可夫过程(Markov Process)
马尔可夫过程(或马尔可夫链)是一个二元组<𝑺,𝑷>

• 𝑺 :(有限)状态集

• 𝑷: 状态转移概率矩阵

𝑷𝒔𝒔′ = 𝑷 [ 𝑺𝒕+𝟏 = 𝒔′ | 𝑺𝒕 = 𝒔 ]
3
第二部分 MRPs 马尔可夫奖励过程

基本构成要素

回报和值函数

MRPs的贝尔曼方程

贝尔曼方程的矩阵形式
基本构成要素

马尔可夫奖励过程(Markov Reward Process)


马尔可夫奖励过程是一个四元组<𝑺, 𝑷, 𝑹, 𝜸>

• 𝑺 :(有限)状态集
• 𝑷: 状态转移概率矩阵 𝑃𝑠𝑠′ = 𝑃 [ 𝑆𝑡+1 = 𝑠 ′ | 𝑆𝑡 = 𝑠 ]
• 𝑹 : 奖励函数 𝑹𝑺 = 𝑬 [ 𝑹𝒕+𝟏 | 𝑺𝒕 = 𝒔 ]
• 𝜸: 折扣因子/衰减系数 𝜸 ∈ [𝟎, 𝟏]
4
奖励函数

• 𝑹 : 奖励函数 𝑹𝑺 = 𝑬 [ 𝑹𝒕+𝟏 | 𝑺𝒕 = 𝒔 ]
一定分布

𝑺𝟐 𝑹𝑺𝟏 = 𝑬 [ 𝑹𝒕+𝟏 | 𝑺𝒕 = 𝑺𝟏 ]
𝑹𝒕+𝟏 𝑹𝑺𝟐 = 𝑬 [ 𝑹𝒕+𝟏 | 𝑺𝒕 = 𝑺𝟐 ]

𝑺𝟏 𝑺𝟒 𝑹𝑺𝟑 = 𝑬 [ 𝑹𝒕+𝟏 | 𝑺𝒕 = 𝑺𝟑 ]
𝑺𝟑
𝑹𝑺𝟒 = 𝑬 [ 𝑹𝒕+𝟏 | 𝑺𝒕 = 𝑺𝟒 ]
5
回报和值函数

• 𝜸: 折扣因子/衰减系数 𝜸 ∈ [𝟎, 𝟏]

回报(Return):𝑮𝒕 是从时间𝒕开始的总折扣奖励

𝑮𝒕 = 𝑹𝒕+𝟏 + 𝜸𝑹𝒕+𝟐 + 𝜸𝟐 𝑹𝒕+𝟑 + ⋯ = ෍ 𝜸𝒌 𝑹𝒕+𝒌+𝟏


𝒌=𝟎

表示所有奖励在当前的价值

• 未来是不确定的
• 未来很长
𝒕 𝒕+𝟏 𝒕+𝟐 6
回报和值函数

值函数(Value Function):𝐕(𝐬)表示一个状态𝐬的长期价值

𝐕 𝐬 = 𝐄[𝑮𝒕 |𝑺𝒕 = 𝒔] 𝑹𝒕+𝟏 𝑹𝒕+𝟐 𝑹𝒕+𝟑


𝑹𝒕+𝟏 𝑹𝒕+𝟐 𝑹𝒕+𝟑
𝑹𝒕+𝟏 𝑹𝒕+𝟐 𝑹𝒕+𝟑
𝑹𝒕+𝟏 𝑹𝒕+𝟐 𝑹𝒕+𝟑 ……
𝑹𝒕+𝟏 𝑹𝒕+𝟐 𝑹𝒕+𝟑
𝑺𝒕
𝑹𝒕+𝟏 𝑹𝒕+𝟐 𝑹𝒕+𝟑

𝑮𝒕 = 𝑹𝒕+𝟏 + 𝜸𝑹𝒕+𝟐 + 𝜸𝟐 𝑹𝒕+𝟑 + ⋯ = ෍ 𝜸𝒌 𝑹𝒕+𝒌+𝟏 7


𝒌=𝟎
MRPs的贝尔曼方程

MRPs的贝尔曼方程(Bellman Equation for MRPs)

𝐕 𝐬 = 𝐄[𝑮𝒕 |𝑺𝒕 = 𝒔]

𝐺𝑡 = 𝑅𝑡+1 + 𝛾𝑅𝑡+2 + 𝛾 2 𝑅𝑡+3 + ⋯ = ෍ 𝛾 𝑘 𝑅𝑡+𝑘+1


𝑘=0
𝜸𝑽 𝑺𝒕+𝟏

𝐕 𝐬 = 𝐄[𝑹𝒕+𝟏 + 𝜸𝑽 𝑺𝒕+𝟏 |𝑺𝒕 = 𝒔] 贝尔曼方程


8
MRPs的贝尔曼方程

𝐕 𝐬 = 𝐄[𝑹𝒕+𝟏 + 𝜸𝑽 𝑺𝒕+𝟏 |𝑺𝒕 = 𝒔] 若已知状态转移矩阵P


𝑽 𝒔
𝑅𝑆 = 𝐸 [ 𝑅𝑡+1 | 𝑆𝑡 = 𝑆 ] 𝑽 𝒔′
𝑃𝑠𝑠′ = 𝑃 [ 𝑆𝑡+1 = 𝑠 ′ | 𝑆𝑡 = 𝑠 ] 𝑷𝒔𝒔′
𝑷𝒔𝒔′ 𝑽 𝒔′
𝑷𝒔𝒔′
𝑽 𝒔 = 𝑹𝒔 + 𝜸 ෍ 𝑷𝒔𝒔′ 𝑽 𝒔′ 𝑹𝒔 𝑽 𝒔′
𝒔′ ∈𝑺

9
贝尔曼方程的矩阵形式

贝尔曼方程矩阵形式

𝑽 𝒔 = 𝑹𝒔 + 𝜸 ෍ 𝑷𝒔𝒔′ 𝑽 𝒔′
𝒔′ ∈𝑺
𝑛∗1 𝑛∗1 𝑛∗𝑛 𝑛∗1
𝑽 = 𝑹 + 𝜸𝑷𝑽
复杂度𝐎(n³)
⚫ 动态规划(Dynamic programming)
(𝟏 − 𝜸𝑷)𝑽 = 𝑹
⚫ 蒙特卡洛评估(Monte-Carlo evaluation)
𝑽 = (𝟏 − 𝜸𝑷)−𝟏 𝑹 ⚫ 时序差分学习(Temporal-Difference learning) 10
第三部分 MDP 马尔可夫决策过程
基本构成要素

策略和值函数

贝尔曼期望方程

最优值函数和最优策略

贝尔曼最优方程及求解
基本构成要素

马尔可夫决策过程(Markov Decision Process)


马尔可夫决策过程是一个五元组<𝑺, 𝑨, 𝑷, 𝑹, 𝜸>

• 𝑺 :(有限)状态集
• A: (有限)动作集
• 𝑷: 状态转移概率矩阵 𝑃𝑠𝑠
𝑎 ′
′ = 𝑃 [ 𝑆𝑡+1 = 𝑠 | 𝑆𝑡 = 𝑠, 𝐴𝑡 = 𝑎]

• 𝑹 : 奖励函数 𝑅𝑠𝑎 = 𝐸 [ 𝑅𝑡+1 | 𝑆𝑡 = 𝑠 , 𝐴𝑡 = 𝑎]


• 𝜸: 折扣因子/衰减系数 𝛾 ∈ [0,1]
11
策略

策略(Policy)

𝝅是给定状态的动作分布 𝝅 𝒂 𝒔 = 𝑷[𝑨𝒕 = 𝒂|𝑺𝒕 = 𝒔] 随机变量

• 策略完全决定智能体行为

• MDP策略依赖于当前状态(无关历史)

• 策略是固定的(无关时间) 𝑨𝒕 ~𝝅 · 𝑺𝒕 , 任意𝒕>𝟎

12
策略

给定一个马尔可夫决策过程𝑴 =< 𝑺, 𝑨, 𝑷, 𝑹, 𝜸>和策略𝝅

其可转化为马尔可夫过程和马尔可夫奖励过程
<𝑺,𝑷> <𝑺, 𝑷, 𝑹, 𝜸>

𝒂𝟏 𝒑𝟏
𝑷𝝅
𝒔,𝒔′ = σ𝒂∈𝑨 π(𝒂|𝒔) 𝑷𝒂𝒔,𝒔′ 𝑷𝒂𝝅
𝒔,𝒔′
𝟐 𝒑𝟐

𝒂𝟑 𝒑𝟑
𝑹𝝅
𝒔 = σ𝒂∈𝑨 π(𝒂|𝒔) 𝑹𝒂𝒔 𝒔 𝒔′
13
值函数

状态值函数(State-value function)
𝝅 𝒂𝒔 𝝅 𝒂 𝒔′
𝒗𝝅 𝒔 = 𝑬𝝅 [𝑮𝒕 |𝑺𝒕 = 𝒔]
𝒔 𝒔′ 𝒔′′ …
动作值函数(Action-value function)
𝒂 𝝅 𝒂 𝒔′

𝒒𝝅 𝒔, 𝒂 = 𝑬𝝅 [𝑮𝒕 |𝑺𝒕 = 𝒔, 𝑨𝒕 = 𝒂] 𝒔 𝒔′ 𝒔′′ …


14
贝尔曼期望方程

状态值函数(State-value function)
𝒗𝝅 𝒔 = 𝑬𝝅 [𝑮𝒕 |𝑺𝒕 = 𝒔]

𝑮𝒕 = 𝑹𝒕+𝟏 + 𝜸𝑹𝒕+𝟐 + 𝜸𝟐 𝑹𝒕+𝟑 + ⋯ = ෍ 𝜸𝒌 𝑹𝒕+𝒌+𝟏


𝒌=𝟎

𝒗𝝅 𝒔 = 𝑬𝝅 [𝑹𝒕+𝟏 + 𝜸𝒗𝝅 𝑺𝒕+𝟏 |𝑺𝒕 = 𝒔]


状态值函数的贝尔曼期望方程 15
贝尔曼期望方程

动作值函数(Action-value function)
𝒒𝝅 𝒔, 𝒂 = 𝑬𝝅 [𝑮𝒕 |𝑺𝒕 = 𝒔, 𝑨𝒕 = 𝒂]

𝑮𝒕 = 𝑹𝒕+𝟏 + 𝜸𝑹𝒕+𝟐 + 𝜸𝟐 𝑹𝒕+𝟑 + ⋯ = ෍ 𝜸𝒌 𝑹𝒕+𝒌+𝟏


𝒌=𝟎

𝒒𝝅 𝒔, 𝒂 = 𝑬𝝅 [𝑹𝒕+𝟏 + 𝜸𝒒𝝅 𝑺𝒕+𝟏 , 𝑨𝒕+𝟏 |𝑺𝒕 = 𝒔, 𝑨𝒕 = 𝒂]


动作值函数的贝尔曼期望方程 16
贝尔曼期望方程

𝒗𝝅 𝒔 𝒔 𝒒𝝅 𝒔, 𝒂 𝒔, 𝒂

𝒒𝝅 𝒔, 𝒂 𝒂 𝒗𝝅 𝒔′ 𝒔′

𝒗𝝅 𝒔 = ෍ 𝝅(𝒂|𝒔)𝒒𝝅 𝒔, 𝒂 𝒒𝝅 𝒔, 𝒂 = 𝑹𝒂𝒔 + 𝜸 ෍ 𝑷𝒂𝒔𝒔′ 𝒗𝝅 𝒔′


𝒂∈𝑨 𝒔′ ∈𝑺
某一个状态的价值可以用该 某一个动作的价值可以用该
状态下所有动作的价值表述 状态后继状态的价值表述 17
最优值函数和最优策略

最优状态值函数(Optimal state-value function)


最大化
𝒗∗ 𝒔 = 𝒎𝒂𝒙 𝒗𝝅 (𝒔)
𝝅
所有的
最优动作值函数(Optimal action-value function)
𝒒∗ 𝒔, 𝒂 = 𝒎𝒂𝒙 𝒒𝝅 (𝒔, 𝒂) 𝒒∗ 𝒔, 𝒂
𝝅

最优策略(Optimal policy)•确定值
存在一个最优策略,使𝝅∗ ≥ 𝒂𝒏𝒚 𝝅
𝝅∗ ≥ 𝒂𝒏𝒚 𝝅 • 所有最优策略都能取得最优状态值函数
注:若𝑣𝜋’ 𝑠 ≥ 𝑣𝜋 𝑠 ,则𝜋′> 𝜋 • 所有最优策略都能取得最优动作值函数 18
贝尔曼最优方程及求解

贝尔曼最优方程(Bellman optimality equation)


回顾:贝尔曼期望方程

𝒗𝝅 𝒔 = ෍ 𝝅(𝒂|𝒔)𝒒𝝅 𝒔, 𝒂 𝒒𝝅 𝒔, 𝒂 = 𝑹𝒂𝒔 + 𝜸 ෍ 𝑷𝒂𝒔𝒔′ 𝒗𝝅 𝒔′


𝒂∈𝑨 状态值函数的贝尔曼最优方程 𝒔′ ∈𝑺

𝒗∗ 𝒔 = 𝒎𝒂𝒙 𝒒∗ 𝒔, 𝒂 𝒒∗ 𝒔, 𝒂 = 𝑹𝒂𝒔 + 𝜸 ෍ 𝑷𝒂𝒔𝒔′ 𝒗∗ 𝒔′


𝒂
𝒔′ ∈𝑺
动作值函数的贝尔曼最优方程
19
贝尔曼最优方程及求解

状态值函数的贝尔曼最优方程
𝒗∗ 𝒔 = 𝒎𝒂𝒙[𝑹𝒂𝒔 + 𝜸 ෍ 𝑷𝒂𝒔𝒔′ 𝒗∗ 𝒔′ ]
𝒂
𝒔′ ∈𝑺

动作值函数的贝尔曼最优方程 •值迭代(Value Iteration)


•策略迭代(Policy Iteration)
𝒒∗ 𝒔, 𝒂 = 𝑹𝒂𝒔 + 𝜸 ෍ 𝑷𝒂𝒔𝒔′ 𝒎𝒂𝒙 𝒒∗ 𝒔′, 𝒂′ •Q-Learning
𝒂′
𝒔′ ∈𝑺 •Sarsa

20
谢谢聆听,请您指导
THANKS

You might also like