4 1 决策智能：任务与技术概览

DataFunSummit2022
决策智能在线峰会决策智能前沿论坛
决策智能：任务与技术概览
张伟楠
上海交通大学
http://wnzhang.net
欢迎关注《动手学强化学习》
https://hrl.boyuai.com/
分享内容
• 决策智能技术概览
• 强化学习的基础概念和思维方式
• 强化学习的落地现状与挑战
2
两种人工智能任务类型
p 预测型任务
• 根据数据预测所需输出（有监督学习）
• 生成数据实例（无监督学习）
p 决策型任务
• 在静态环境中优化目标（优化问题）
• 在动态环境中采取行动（强化学习）
3
决策智能的任务和技术分类
p 根据决策环境的动态性和透明性，决策任务大致分为以下四个部分，
对应具体的技术方案
白盒环境黑盒环境
环境特性 • 变量和目标之间的关系 • 变量和目标之间的关系
可以用具体公式表示无法用具体公式表示
静态环境运筹优化黑盒优化

• 环境没有转移的状态 • （混合整数）线性规划 • 神经网络替代模型优化
• 单步决策 • 非线形优化 • 贝叶斯优化
动态环境动态规划强化学习

• 环境有可转移的状态 • MDP直接求解 • 策略优化
• 多步决策 • 树、图搜索 • Bandits、序贯黑盒
序贯决策 4
运筹优化（Operational Research）
p 运筹优化任务往往可以由数学公式直接写出，是典型的白盒环境，以
常见的混合整数规划问题为例
变量目标约束
5
生产排期例子变量：每个时段生产的物品和量约束：生产物品、生产环境的依赖目标：成本
黑盒优化（Black-box Optimization）
p 黑盒优化任务往往无法由数学公式直接写出输入和输出的对应关系，
主要面临的挑战包括无显式解、收敛性等问题
优化的目标函数未知、甚
至评估也不容易
在一定范围内寻找最优变量
工业制造例子：一套生产线500个参数可以调整，需要找到合适的参数，使得产出零件的 6
坏件率最低；但开启生产线后一段时间才能计算坏件率。
序贯决策（Sequential Decision Making）
p 序贯决策中，智能体序贯地做出一个个决策，并接续看到新的观测，
直到最终任务结束
智能体动态环境
机器狗例子：操作轮足和地形持续交互，完成越过障碍物的任务
7
绝大多数序贯决策问题，可以用强化学习来解
分享内容
• 决策智能
8
强化学习定义
p 通过从交互中学习来实现目标的计算方法
智能体（agent）
观察
（observation）行动（action）
奖励
（reward）
p 三个方面：
• 感知：在某种程度上感知环境的状态
• 行动：可以采取行动来影响状态或者达到目标
• 目标：随着时间推移最大化累积奖励
9
强化学习交互过程
智能体
p 在每一步 t，智能体：
观察行动 • 获得观察 Ot
𝑂! 𝐴! • 执行行动 At
• 获得奖励 Rt
p 环境：
奖励 𝑅!
• 获得行动 At
• 给出奖励 Rt
• 给出观察 Ot+1
p t 在环境这一步增加
10
环境
在与动态环境的交互中学习
有监督学习
无监督学习
预测模型固定的数据
强化学习
智能体
动态环境
独特性：策略不同，交互出的数据也不同！ 11
一个智能体的例子：MIT机器狗
Margolis et al. Rapid Locomotion via Reinforcement Learning. Arxiv 2205.02824, 2021. 12
https://sites.google.com/view/model-free-speed
强化学习系统要素
p 历史（History）是观察、行动和奖励的序列
𝐻! = 𝑂" , 𝐴" , 𝑅" , 𝑂# , 𝐴# , 𝑅# , … , 𝑂!$" , 𝐴!$" , 𝑅!$" , 𝑂!

• 即，一直到时间t为止的所有可观测变量
• 根据这个历史可以决定接下来会发生什么
• 智能体选择行动
• 环境选择观察和奖励
p 状态（state）是一种用于确定接下来会发生的事情（行动、观察、
奖励）的信息
• 状态是关于历史的函数
𝑆! = 𝑓(𝐻! )
13
强化学习系统要素
p 策略（Policy）是学习智能体在特定状态的动作决策
• 确定性策略（Deterministic Policy） 𝑎 = 𝜋(𝑠)
• 随机策略（Stochastic Policy） 𝜋 𝑎 𝑠 = 𝑃 𝐴! = 𝑎 𝑆! = 𝑠)
智能体
p 奖励（Reward） 𝑅(𝑠, 𝑎)
观察行动
• 一个定义强化学习目标的标量，能立即感 𝑂! 𝐴!
知到什么是“好”的
p 环境（Environment）奖励 𝑅!
• 预测下一个状态
!!
𝒫!" = ℙ[𝑆#$% = 𝑠′|𝑆# = 𝑠, 𝐴# = 𝑎]
• 预测下一个（立即）奖励
ℛ!" = 𝔼[𝑅# |𝑆# = 𝑠, 𝐴# = 𝑎] 14
环境
价值-策略的动态规划求解（白盒动态环境）
p 价值是一个标量，用于定义对于长期来说什么是“好”的
p 给策略𝜋定义价值函数：从某个状态和动作开始，获得的累积奖励期望
𝑄& (𝑠, 𝑎) = 𝔼[𝑅(𝑠+ ) + 𝛾𝑅(𝑠% ) + 𝛾 , 𝑅(𝑠, ) + ⋅⋅⋅ |𝑠+ = 𝑠, 𝑎+ = 𝑎, 𝜋]
𝛾𝑄& (𝑠% , 𝑎% )
= 𝑅(𝑠) + 𝛾 5 𝑃!" (𝑠′) 5 𝜋 𝑎* 𝑠 * 𝑄(𝑠 * , 𝑎′) Bellman等式

! ! ∈( " ! ∈)
立即奖励状态转移
时间折扣下一个状态的价值
p 基于 𝑄 函数，改进策略 𝜋 ；基于上式，更新 𝑄 函数（策略迭代的动态规划）

15
SARSA强化学习方法（黑盒动态环境）
p 对于当前策略执行的每个（状态-动作-奖励-状态-动作）元组
状态𝑠，执行动作𝑎
观测到奖励𝑟
转移到下一个状态𝑠′
状态𝑠′，执行动作𝑎′
p SARSA更新状态-动作值函数为
𝑄 𝑠, 𝑎 ← 𝑄 𝑠, 𝑎 + 𝛼(𝑟 + 𝛾𝑄 𝑠 % , 𝑎% − 𝑄(𝑠, 𝑎))
16
SARSA算法
注：在线策略时序差分控制（on-policy TD control）使用当前策略进行动作
采样。即，SARSA算法中的两个“A”都是由当前策略选择的
17
SARSA示例：Windy Gridworld
p 每步的奖励 = -1，直到智能体抵达目标网格
p 无折扣因子
注意：随着训练的进行，SARSA策略越来越快速地抵达目标
18
价值和策略近似
𝑄- (𝑠, 𝑎) 𝜋- (𝑎|𝑠)
𝑄- (𝑠, 𝑎) 𝜋- (𝑎|𝑠)
a1 a2 a1 a2
s1 3.2 4.1 s1 0.2 0.8
s2 0.8 1.2 s2 0.4 0.6
𝜃 𝜃
s3 2.3 -0.3 s3 0.9 0.1
价值函数表格策略表格
𝑠 𝑎 𝑠
价值函数近似策略近似
p 假如我们直接使用深度神经网络建立这些近似函数呢？
p 深度强化学习！
19
深度强化学习的崛起
• 2012年AlexNet在ImageNet比赛中大幅度领先对手获得冠军
• 2013年12月，第一篇深度强化学习论文出自NIPS 2013
Reinforcement Learning Workshop
20
Volodymyr Mnih, Koray Kavukcuoglu, David Silver et al. Playing Atari with Deep Reinforcement Learning. NIPS 2013 workshop.
深度强化学习
p 深度强化学习
• 利用深度神经网络进行价值函数和策略近似
• 从而使强化学习算法能够以端到端的方式解决复杂问题
Q函数的参数通过神经网络反向传播学习
21
Volodymyr Mnih, Koray Kavukcuoglu, David Silver et al. Playing Atari with Deep Reinforcement Learning. NIPS 2013 workshop.
端到端强化学习
标准（传统）
计算机视觉
深度学习
标准（传统）
强化学习
深度强化学习
• 深度强化学习使强化学习算法能够以端到端的方式解决复杂问题
• 从一项实验室学术变成可以产生GDP的实际技术 22
Slide from Sergey Levine. http://rail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-1.pdf

深度强化学习带来的关键变化
输出：行动
p 将深度学习（DL）和强化学习（RL）
行动价值
结合在一起会发生什么？
• 价值函数和策略变成了深度神经网络
• 相当高维的参数空间多层全连接
网络
• 难以稳定地训练
• 容易过拟合
• 需要大量的数据
• 需要高性能计算
• CPU（用于收集经验数据）和GPU（用多层卷积
于训练神经网络）之间的平衡网络
• …
p 这些新的问题促进着深度强化学习算法
输入：直接观察
的创新
23
在 Atari 环境中的实验结果
normalized performance
DQN score − random play score
=
human score − random play score
The performance of DQN is

normalized with respect to a
professional human games
tester (that is, 100% level)
24
“Human-Level Control Through Deep Reinforcement Learning”, Mnih, Kavukcuoglu, Silver et al. (2015)
深度强化学习的研究前沿
基于模拟模型的强化学习
• 模拟器的无比重要性
目标策动的层次化强化学习
• 长程任务的中间目标是桥梁的基石
模仿学习
• 无奖励信号下跟随专家做策略学习
多智能体强化学习
• 分散式、去中心化的人工智能
离线强化学习
• 训练过程中智能体不能和环境交互
强化学习大模型
• 探索以大的序列建模方式来完成序贯决策任务
25
强化学习大模型：从序列建模来看强化学习任务
Decision Transformer的基本架构
CQL
Transformer的架构
Decision Transformer在一些离线强化学习的任务中已经取
得很不错的效果
26
Chen et al. Decision Transformer: Reinforcement
Learning via Sequence Modeling. NeurIPS 2021.
p 数字大脑研究院、中科
院和高校团队于2021
年11月发布首个多智能
体强化大模型MADT，
使用一个GPT模型完成
多个星际争霸对战任务。
MADT训练流程
离线训练效果
MADT架构
27
Meng, Linghui, et al. "Offline Pre-trained Multi-Agent Decision Transformer: One
Big Sequence Model Conquers All StarCraftII Tasks." arXiv:2112.02845 (2021). 预训练微调效果
p DeepMind于2022年5月发布
Gato决策大模型，使用同一个
GPT网络（11.8亿参数）同时
完成约600个任务
• 采样每个任务的专家数据
• 使用完全有监督学习离线训练
• 使用部分专家轨迹做prompt
28
Reed et al. A Generalist Agent. Arxiv 2021.
分享内容
• 决策智能
29
强化学习的落地场景
• 无人驾驶
• 游戏AI
• 交通灯调度
• 网约车派单
• 组合优化
• 推荐搜索系统
• 数据中心节能优化
• 对话系统
• 机器人控制
• 路由选路
• 工业互联网场景
•…
30
快递仓库分拣机器人
Tech China 31
强化学习技术在体育场景的新尝试
Hoang M. Le, Peter Carr,Yisong Yue and Patrick Lucey 32

Data-Driven Ghosting using Deep Imitation Learning
MIT Sloan Sports Analytics Conference (SSAC), 2017 (Soccer) https://github.com/linouk23/NBA-Player-Movements
无人驾驶归控
专门为训练无人驾驶场景下的多智能体规控AI的模拟器
https://github.com/huawei-noah/SMARTS 33
Zhou et al. SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for Autonomous Driving. CoRL 2020.
强化学习技术落地的挑战
人对于AI的更高要求
p 强化学习要求机器做出决策，改变世界，这其实是赋予了AI更大的权
力，反过来也就对强化学习算法有了更高的要求
p 高仿真度模拟器和安全强化学习技术
决策场景千变万化
p 任务多种多样，目标、数据、效率要求等皆不同
p 需要算法团队对具体的场景任务比较了解
算力的极大需求
p Trial-and-error学习机制导致强化学习比起预测型深度学习模型需求
的数据量和相应的算力都更大（大1~2个数量级）
p 一个统一的、高效的、服务强化学习的计算平台很重要 34
THANK YOU
张伟楠欢迎关注
上海交通大学《动手学强化学习》
http://wnzhang.net https://hrl.boyuai.com/

4 1 决策智能：任务与技术概览

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

4 1 决策智能：任务与技术概览

Uploaded by

Copyright:

Available Formats

DataFunSummit2022

静态环境运筹优化黑盒优化

动态环境动态规划强化学习

𝐻! = 𝑂" , 𝐴" , 𝑅" , 𝑂# , 𝐴# , 𝑅# , … , 𝑂!$" , 𝐴!$" , 𝑅!$" , 𝑂!

• 确定性策略（Deterministic Policy） 𝑎 = 𝜋(𝑠)

𝑄& (𝑠, 𝑎) = 𝔼[𝑅(𝑠+ ) + 𝛾𝑅(𝑠% ) + 𝛾 , 𝑅(𝑠, ) + ⋅⋅⋅ |𝑠+ = 𝑠, 𝑎+ = 𝑎, 𝜋]

= 𝑅(𝑠) + 𝛾 5 𝑃!" (𝑠′) 5 𝜋 𝑎* 𝑠 * 𝑄(𝑠 * , 𝑎′) Bellman等式

p 基于 𝑄 函数，改进策略 𝜋 ；基于上式，更新 𝑄 函数（策略迭代的动态规划）

𝑄 𝑠, 𝑎 ← 𝑄 𝑠, 𝑎 + 𝛼(𝑟 + 𝛾𝑄 𝑠 % , 𝑎% − 𝑄(𝑠, 𝑎))

Slide from Sergey Levine. http://rail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-1.pdf

The performance of DQN is

Hoang M. Le, Peter Carr,Yisong Yue and Patrick Lucey 32

You might also like

4 1 决策智能：任务与技术概览

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

4 1 决策智能：任务与技术概览

Uploaded by

Copyright:

Available Formats

DataFunSummit2022

静态环境 运筹优化 黑盒优化

动态环境 动态规划 强化学习

𝐻! = 𝑂" , 𝐴" , 𝑅" , 𝑂# , 𝐴# , 𝑅# , … , 𝑂!$" , 𝐴!$" , 𝑅!$" , 𝑂!

• 确定性策略（Deterministic Policy） 𝑎 = 𝜋(𝑠)

𝑄& (𝑠, 𝑎) = 𝔼[𝑅(𝑠+ ) + 𝛾𝑅(𝑠% ) + 𝛾 , 𝑅(𝑠, ) + ⋅⋅⋅ |𝑠+ = 𝑠, 𝑎+ = 𝑎, 𝜋]

= 𝑅(𝑠) + 𝛾 5 𝑃!" (𝑠′) 5 𝜋 𝑎* 𝑠 * 𝑄(𝑠 * , 𝑎′) Bellman等式

p 基于 𝑄 函数，改进策略 𝜋 ；基于上式，更新 𝑄 函数（策略迭代的动态规划）

𝑄 𝑠, 𝑎 ← 𝑄 𝑠, 𝑎 + 𝛼(𝑟 + 𝛾𝑄 𝑠 % , 𝑎% − 𝑄(𝑠, 𝑎))

Slide from Sergey Levine. http://rail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-1.pdf

The performance of DQN is

Hoang M. Le, Peter Carr,Yisong Yue and Patrick Lucey 32

You might also like

静态环境运筹优化黑盒优化

动态环境动态规划强化学习