马尔科夫决策过程录屏

马尔可夫决策过程
Bellman, R. , 1957. A Markovian Decision Process.

Technical Report. DTIC Document .
QQ：1071955807
2021年7月12日
目录 1 马尔可夫过程
CONTENTS 2 马尔可夫奖励过程
3 马尔可夫决策过程
第一部分 Markov Process 马尔可夫过程
马尔可夫性质
状态转移矩阵
基本构成要素
马尔可夫性质
马尔可夫过程（Markov Process）
无记忆的随机过程(memoryless random process)
随机状态序列𝑺𝟏 , 𝑺𝟐 , … …具有马尔可夫性质
未来只与现在
如何体现有关
下一状态
而与过去无关？
由上一状态决定
… … …
状态集合 𝐒
𝑺𝟏 𝑺𝟐 𝑺𝟑 1
状态转移矩阵
状态转移矩阵（State Transition Matrix）

𝑷定义了从所有状态𝒔转移到所有后继状态𝒔′ 的概率
𝑺𝟏 𝑺𝟐 𝑺𝟑 𝑷𝒔𝒔′ = 𝑷 [ 𝑺𝒕+𝟏 = 𝒔′ | 𝑺𝒕 = 𝒔 ]
𝑺𝟏 0.2 0.3 0.4
𝑷𝟏𝟏 ⋯ 𝑷𝟏𝒏
𝑺𝟐 0.5 0.1 0.4 𝑷= ⋮ ⋱ ⋮
𝑺𝟑 0.3 0.6 0.2 𝑷𝒏𝟏 ⋯ 𝑷𝒏𝒏
2
基本构成要素
马尔可夫过程（Markov Process）
马尔可夫过程（或马尔可夫链）是一个二元组<𝑺,𝑷>
• 𝑺 ：（有限）状态集
• 𝑷：状态转移概率矩阵
𝑷𝒔𝒔′ = 𝑷 [ 𝑺𝒕+𝟏 = 𝒔′ | 𝑺𝒕 = 𝒔 ]
3
第二部分 MRPs 马尔可夫奖励过程
回报和值函数
MRPs的贝尔曼方程
贝尔曼方程的矩阵形式
基本构成要素
马尔可夫奖励过程（Markov Reward Process）

马尔可夫奖励过程是一个四元组<𝑺, 𝑷, 𝑹, 𝜸>
• 𝑷：状态转移概率矩阵 𝑃𝑠𝑠′ = 𝑃 [ 𝑆𝑡+1 = 𝑠 ′ | 𝑆𝑡 = 𝑠 ]
• 𝑹 ：奖励函数 𝑹𝑺 = 𝑬 [ 𝑹𝒕+𝟏 | 𝑺𝒕 = 𝒔 ]
• 𝜸：折扣因子/衰减系数 𝜸 ∈ [𝟎, 𝟏]
4
奖励函数
• 𝑹 ：奖励函数 𝑹𝑺 = 𝑬 [ 𝑹𝒕+𝟏 | 𝑺𝒕 = 𝒔 ]
一定分布
𝑺𝟐 𝑹𝑺𝟏 = 𝑬 [ 𝑹𝒕+𝟏 | 𝑺𝒕 = 𝑺𝟏 ]
𝑹𝒕+𝟏 𝑹𝑺𝟐 = 𝑬 [ 𝑹𝒕+𝟏 | 𝑺𝒕 = 𝑺𝟐 ]
𝑺𝟏 𝑺𝟒 𝑹𝑺𝟑 = 𝑬 [ 𝑹𝒕+𝟏 | 𝑺𝒕 = 𝑺𝟑 ]
𝑺𝟑
𝑹𝑺𝟒 = 𝑬 [ 𝑹𝒕+𝟏 | 𝑺𝒕 = 𝑺𝟒 ]
5
回报和值函数
• 𝜸：折扣因子/衰减系数 𝜸 ∈ [𝟎, 𝟏]
回报（Return）：𝑮𝒕 是从时间𝒕开始的总折扣奖励
∞
𝑮𝒕 = 𝑹𝒕+𝟏 + 𝜸𝑹𝒕+𝟐 + 𝜸𝟐 𝑹𝒕+𝟑 + ⋯ = ෍ 𝜸𝒌 𝑹𝒕+𝒌+𝟏

𝒌=𝟎
表示所有奖励在当前的价值
• 未来是不确定的
• 未来很长
𝒕 𝒕+𝟏 𝒕+𝟐 6
回报和值函数
值函数（Value Function）：𝐕(𝐬)表示一个状态𝐬的长期价值
𝐕 𝐬 = 𝐄[𝑮𝒕 |𝑺𝒕 = 𝒔] 𝑹𝒕+𝟏 𝑹𝒕+𝟐 𝑹𝒕+𝟑

𝑹𝒕+𝟏 𝑹𝒕+𝟐 𝑹𝒕+𝟑
𝑹𝒕+𝟏 𝑹𝒕+𝟐 𝑹𝒕+𝟑 ……
𝑺𝒕
∞
𝑮𝒕 = 𝑹𝒕+𝟏 + 𝜸𝑹𝒕+𝟐 + 𝜸𝟐 𝑹𝒕+𝟑 + ⋯ = ෍ 𝜸𝒌 𝑹𝒕+𝒌+𝟏 7

𝒌=𝟎
MRPs的贝尔曼方程
MRPs的贝尔曼方程（Bellman Equation for MRPs）
𝐕 𝐬 = 𝐄[𝑮𝒕 |𝑺𝒕 = 𝒔]
∞
𝐺𝑡 = 𝑅𝑡+1 + 𝛾𝑅𝑡+2 + 𝛾 2 𝑅𝑡+3 + ⋯ = ෍ 𝛾 𝑘 𝑅𝑡+𝑘+1

𝑘=0
𝜸𝑽 𝑺𝒕+𝟏
𝐕 𝐬 = 𝐄[𝑹𝒕+𝟏 + 𝜸𝑽 𝑺𝒕+𝟏 |𝑺𝒕 = 𝒔] 贝尔曼方程

8
MRPs的贝尔曼方程
𝐕 𝐬 = 𝐄[𝑹𝒕+𝟏 + 𝜸𝑽 𝑺𝒕+𝟏 |𝑺𝒕 = 𝒔] 若已知状态转移矩阵P

𝑽 𝒔
𝑅𝑆 = 𝐸 [ 𝑅𝑡+1 | 𝑆𝑡 = 𝑆 ] 𝑽 𝒔′
𝑃𝑠𝑠′ = 𝑃 [ 𝑆𝑡+1 = 𝑠 ′ | 𝑆𝑡 = 𝑠 ] 𝑷𝒔𝒔′
𝑷𝒔𝒔′ 𝑽 𝒔′
𝑷𝒔𝒔′
𝑽 𝒔 = 𝑹𝒔 + 𝜸 ෍ 𝑷𝒔𝒔′ 𝑽 𝒔′ 𝑹𝒔 𝑽 𝒔′
𝒔′ ∈𝑺
9
贝尔曼方程的矩阵形式
贝尔曼方程矩阵形式
𝑽 𝒔 = 𝑹𝒔 + 𝜸 ෍ 𝑷𝒔𝒔′ 𝑽 𝒔′
𝒔′ ∈𝑺
𝑛∗1 𝑛∗1 𝑛∗𝑛 𝑛∗1
𝑽 = 𝑹 + 𝜸𝑷𝑽
复杂度𝐎(n³)
⚫ 动态规划(Dynamic programming)
（𝟏 − 𝜸𝑷）𝑽 = 𝑹
⚫ 蒙特卡洛评估(Monte-Carlo evaluation)
𝑽 = （𝟏 − 𝜸𝑷）−𝟏 𝑹 ⚫ 时序差分学习(Temporal-Difference learning) 10
第三部分 MDP 马尔可夫决策过程
策略和值函数
贝尔曼期望方程
最优值函数和最优策略
贝尔曼最优方程及求解
基本构成要素
马尔可夫决策过程（Markov Decision Process）

马尔可夫决策过程是一个五元组<𝑺, 𝑨, 𝑷, 𝑹, 𝜸>
• A: （有限）动作集
• 𝑷：状态转移概率矩阵 𝑃𝑠𝑠
𝑎 ′
′ = 𝑃 [ 𝑆𝑡+1 = 𝑠 | 𝑆𝑡 = 𝑠, 𝐴𝑡 = 𝑎]
• 𝑹 ：奖励函数 𝑅𝑠𝑎 = 𝐸 [ 𝑅𝑡+1 | 𝑆𝑡 = 𝑠 , 𝐴𝑡 = 𝑎]

• 𝜸：折扣因子/衰减系数 𝛾 ∈ [0,1]
11
策略
策略（Policy）
𝝅是给定状态的动作分布 𝝅 𝒂 𝒔 = 𝑷[𝑨𝒕 = 𝒂|𝑺𝒕 = 𝒔] 随机变量
• 策略完全决定智能体行为
• MDP策略依赖于当前状态(无关历史)
• 策略是固定的(无关时间) 𝑨𝒕 ~𝝅 · 𝑺𝒕 , 任意𝒕＞𝟎
12
策略
给定一个马尔可夫决策过程𝑴 =< 𝑺, 𝑨, 𝑷, 𝑹, 𝜸>和策略𝝅
其可转化为马尔可夫过程和马尔可夫奖励过程
<𝑺,𝑷> <𝑺, 𝑷, 𝑹, 𝜸>
𝒂𝟏 𝒑𝟏
𝑷𝝅
𝒔,𝒔′ = σ𝒂∈𝑨 π(𝒂|𝒔) 𝑷𝒂𝒔,𝒔′ 𝑷𝒂𝝅
𝒔,𝒔′
𝟐 𝒑𝟐
𝒂𝟑 𝒑𝟑
𝑹𝝅
𝒔 = σ𝒂∈𝑨 π(𝒂|𝒔) 𝑹𝒂𝒔 𝒔 𝒔′
13
值函数
状态值函数（State-value function）
𝝅 𝒂𝒔 𝝅 𝒂 𝒔′
𝒗𝝅 𝒔 = 𝑬𝝅 [𝑮𝒕 |𝑺𝒕 = 𝒔]
𝒔 𝒔′ 𝒔′′ …
动作值函数（Action-value function）
𝒂 𝝅 𝒂 𝒔′
𝒒𝝅 𝒔, 𝒂 = 𝑬𝝅 [𝑮𝒕 |𝑺𝒕 = 𝒔, 𝑨𝒕 = 𝒂] 𝒔 𝒔′ 𝒔′′ …

14
贝尔曼期望方程
状态值函数（State-value function）
𝒗𝝅 𝒔 = 𝑬𝝅 [𝑮𝒕 |𝑺𝒕 = 𝒔]
∞

𝒌=𝟎
𝒗𝝅 𝒔 = 𝑬𝝅 [𝑹𝒕+𝟏 + 𝜸𝒗𝝅 𝑺𝒕+𝟏 |𝑺𝒕 = 𝒔]

状态值函数的贝尔曼期望方程 15
动作值函数（Action-value function）
𝒒𝝅 𝒔, 𝒂 = 𝑬𝝅 [𝑮𝒕 |𝑺𝒕 = 𝒔, 𝑨𝒕 = 𝒂]
∞

𝒌=𝟎
𝒒𝝅 𝒔, 𝒂 = 𝑬𝝅 [𝑹𝒕+𝟏 + 𝜸𝒒𝝅 𝑺𝒕+𝟏 , 𝑨𝒕+𝟏 |𝑺𝒕 = 𝒔, 𝑨𝒕 = 𝒂]

动作值函数的贝尔曼期望方程 16
𝒗𝝅 𝒔 𝒔 𝒒𝝅 𝒔, 𝒂 𝒔, 𝒂
𝒒𝝅 𝒔, 𝒂 𝒂 𝒗𝝅 𝒔′ 𝒔′
𝒗𝝅 𝒔 = ෍ 𝝅(𝒂|𝒔)𝒒𝝅 𝒔, 𝒂 𝒒𝝅 𝒔, 𝒂 = 𝑹𝒂𝒔 + 𝜸 ෍ 𝑷𝒂𝒔𝒔′ 𝒗𝝅 𝒔′

𝒂∈𝑨 𝒔′ ∈𝑺
某一个状态的价值可以用该某一个动作的价值可以用该
状态下所有动作的价值表述状态后继状态的价值表述 17
最优值函数和最优策略
最优状态值函数（Optimal state-value function）

最大化
𝒗∗ 𝒔 = 𝒎𝒂𝒙 𝒗𝝅 (𝒔)
𝝅
所有的
最优动作值函数（Optimal action-value function）
𝒒∗ 𝒔, 𝒂 = 𝒎𝒂𝒙 𝒒𝝅 (𝒔, 𝒂) 𝒒∗ 𝒔, 𝒂
𝝅
最优策略（Optimal policy）•确定值
存在一个最优策略，使𝝅∗ ≥ 𝒂𝒏𝒚 𝝅
𝝅∗ ≥ 𝒂𝒏𝒚 𝝅 • 所有最优策略都能取得最优状态值函数
注：若𝑣𝜋’ 𝑠 ≥ 𝑣𝜋 𝑠 ，则𝜋′＞ 𝜋 • 所有最优策略都能取得最优动作值函数 18
贝尔曼最优方程及求解
贝尔曼最优方程（Bellman optimality equation）

回顾：贝尔曼期望方程
𝒗𝝅 𝒔 = ෍ 𝝅(𝒂|𝒔)𝒒𝝅 𝒔, 𝒂 𝒒𝝅 𝒔, 𝒂 = 𝑹𝒂𝒔 + 𝜸 ෍ 𝑷𝒂𝒔𝒔′ 𝒗𝝅 𝒔′

𝒂∈𝑨 状态值函数的贝尔曼最优方程 𝒔′ ∈𝑺
𝒗∗ 𝒔 = 𝒎𝒂𝒙 𝒒∗ 𝒔, 𝒂 𝒒∗ 𝒔, 𝒂 = 𝑹𝒂𝒔 + 𝜸 ෍ 𝑷𝒂𝒔𝒔′ 𝒗∗ 𝒔′

𝒂
𝒔′ ∈𝑺
动作值函数的贝尔曼最优方程
19
贝尔曼最优方程及求解
状态值函数的贝尔曼最优方程
𝒗∗ 𝒔 = 𝒎𝒂𝒙[𝑹𝒂𝒔 + 𝜸 ෍ 𝑷𝒂𝒔𝒔′ 𝒗∗ 𝒔′ ]
𝒂
𝒔′ ∈𝑺
动作值函数的贝尔曼最优方程 •值迭代(Value Iteration)

•策略迭代(Policy Iteration)
𝒒∗ 𝒔, 𝒂 = 𝑹𝒂𝒔 + 𝜸 ෍ 𝑷𝒂𝒔𝒔′ 𝒎𝒂𝒙 𝒒∗ 𝒔′, 𝒂′ •Q-Learning
𝒂′
𝒔′ ∈𝑺 •Sarsa
20
谢谢聆听，请您指导
THANKS

马尔科夫决策过程 录屏

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

马尔科夫决策过程 录屏

Uploaded by

Copyright:

Available Formats

马尔可夫决策过程

Bellman, R. , 1957. A Markovian Decision Process.

状态转移矩阵（State Transition Matrix）

马尔可夫奖励过程（Markov Reward Process）

𝑮𝒕 = 𝑹𝒕+𝟏 + 𝜸𝑹𝒕+𝟐 + 𝜸𝟐 𝑹𝒕+𝟑 + ⋯ = ෍ 𝜸𝒌 𝑹𝒕+𝒌+𝟏

𝐕 𝐬 = 𝐄[𝑮𝒕 |𝑺𝒕 = 𝒔] 𝑹𝒕+𝟏 𝑹𝒕+𝟐 𝑹𝒕+𝟑

𝑮𝒕 = 𝑹𝒕+𝟏 + 𝜸𝑹𝒕+𝟐 + 𝜸𝟐 𝑹𝒕+𝟑 + ⋯ = ෍ 𝜸𝒌 𝑹𝒕+𝒌+𝟏 7

MRPs的贝尔曼方程（Bellman Equation for MRPs）

𝐺𝑡 = 𝑅𝑡+1 + 𝛾𝑅𝑡+2 + 𝛾 2 𝑅𝑡+3 + ⋯ = ෍ 𝛾 𝑘 𝑅𝑡+𝑘+1

𝐕 𝐬 = 𝐄[𝑹𝒕+𝟏 + 𝜸𝑽 𝑺𝒕+𝟏 |𝑺𝒕 = 𝒔] 贝尔曼方程

𝐕 𝐬 = 𝐄[𝑹𝒕+𝟏 + 𝜸𝑽 𝑺𝒕+𝟏 |𝑺𝒕 = 𝒔] 若已知状态转移矩阵P

马尔可夫决策过程（Markov Decision Process）

• 𝑹 ： 奖励函数 𝑅𝑠𝑎 = 𝐸 [ 𝑅𝑡+1 | 𝑆𝑡 = 𝑠 , 𝐴𝑡 = 𝑎]

𝝅是给定状态的动作分布 𝝅 𝒂 𝒔 = 𝑷[𝑨𝒕 = 𝒂|𝑺𝒕 = 𝒔] 随机变量

给定一个马尔可夫决策过程𝑴 =< 𝑺, 𝑨, 𝑷, 𝑹, 𝜸>和策略𝝅

𝒒𝝅 𝒔, 𝒂 = 𝑬𝝅 [𝑮𝒕 |𝑺𝒕 = 𝒔, 𝑨𝒕 = 𝒂] 𝒔 𝒔′ 𝒔′′ …

𝑮𝒕 = 𝑹𝒕+𝟏 + 𝜸𝑹𝒕+𝟐 + 𝜸𝟐 𝑹𝒕+𝟑 + ⋯ = ෍ 𝜸𝒌 𝑹𝒕+𝒌+𝟏

𝒗𝝅 𝒔 = 𝑬𝝅 [𝑹𝒕+𝟏 + 𝜸𝒗𝝅 𝑺𝒕+𝟏 |𝑺𝒕 = 𝒔]

𝑮𝒕 = 𝑹𝒕+𝟏 + 𝜸𝑹𝒕+𝟐 + 𝜸𝟐 𝑹𝒕+𝟑 + ⋯ = ෍ 𝜸𝒌 𝑹𝒕+𝒌+𝟏

𝒒𝝅 𝒔, 𝒂 = 𝑬𝝅 [𝑹𝒕+𝟏 + 𝜸𝒒𝝅 𝑺𝒕+𝟏 , 𝑨𝒕+𝟏 |𝑺𝒕 = 𝒔, 𝑨𝒕 = 𝒂]

𝒗𝝅 𝒔 = ෍ 𝝅(𝒂|𝒔)𝒒𝝅 𝒔, 𝒂 𝒒𝝅 𝒔, 𝒂 = 𝑹𝒂𝒔 + 𝜸 ෍ 𝑷𝒂𝒔𝒔′ 𝒗𝝅 𝒔′

最优状态值函数（Optimal state-value function）

贝尔曼最优方程（Bellman optimality equation）

𝒗𝝅 𝒔 = ෍ 𝝅(𝒂|𝒔)𝒒𝝅 𝒔, 𝒂 𝒒𝝅 𝒔, 𝒂 = 𝑹𝒂𝒔 + 𝜸 ෍ 𝑷𝒂𝒔𝒔′ 𝒗𝝅 𝒔′

𝒗∗ 𝒔 = 𝒎𝒂𝒙 𝒒∗ 𝒔, 𝒂 𝒒∗ 𝒔, 𝒂 = 𝑹𝒂𝒔 + 𝜸 ෍ 𝑷𝒂𝒔𝒔′ 𝒗∗ 𝒔′

动作值函数的贝尔曼最优方程 •值迭代(Value Iteration)

You might also like

马尔科夫决策过程录屏

马尔科夫决策过程录屏

• 𝑹 ：奖励函数 𝑅𝑠𝑎 = 𝐸 [ 𝑅𝑡+1 | 𝑆𝑡 = 𝑠 , 𝐴𝑡 = 𝑎]