Download as pdf or txt
Download as pdf or txt
You are on page 1of 35

DataFunSummit2022

决策智能在线峰会 决策智能前沿论坛

决策智能:任务与技术概览

张伟楠
上海交通大学

http://wnzhang.net

欢迎关注《动手学强化学习》
https://hrl.boyuai.com/
分享内容

• 决策智能技术概览

• 强化学习的基础概念和思维方式

• 强化学习的落地现状与挑战

2
两种人工智能任务类型

p 预测型任务

• 根据数据预测所需输出(有监督学习)

• 生成数据实例(无监督学习)

p 决策型任务

• 在静态环境中优化目标(优化问题)

• 在动态环境中采取行动(强化学习)

3
决策智能的任务和技术分类
p 根据决策环境的动态性和透明性,决策任务大致分为以下四个部分,

对应具体的技术方案

白盒环境 黑盒环境
环境特性 • 变量和目标之间的关系 • 变量和目标之间的关系
可以用具体公式表示 无法用具体公式表示

静态环境 运筹优化 黑盒优化


• 环境没有转移的状态 • (混合整数)线性规划 • 神经网络替代模型优化
• 单步决策 • 非线形优化 • 贝叶斯优化

动态环境 动态规划 强化学习


• 环境有可转移的状态 • MDP直接求解 • 策略优化
• 多步决策 • 树、图搜索 • Bandits、序贯黑盒

序贯决策 4
运筹优化(Operational Research)

p 运筹优化任务往往可以由数学公式直接写出,是典型的白盒环境,以

常见的混合整数规划问题为例

变量 目标 约束

5
生产排期例子 变量:每个时段生产的物品和量 约束:生产物品、生产环境的依赖 目标:成本
黑盒优化(Black-box Optimization)

p 黑盒优化任务往往无法由数学公式直接写出输入和输出的对应关系,

主要面临的挑战包括无显式解、收敛性等问题

优化的目标函数未知、甚
至评估也不容易
在一定范围内寻找最优变量

工业制造例子:一套生产线500个参数可以调整,需要找到合适的参数,使得产出零件的 6
坏件率最低;但开启生产线后一段时间才能计算坏件率。
序贯决策(Sequential Decision Making)

p 序贯决策中,智能体序贯地做出一个个决策,并接续看到新的观测,

直到最终任务结束

智能体 动态环境

机器狗例子:操作轮足和地形持续交互,完成越过障碍物的任务
7
绝大多数序贯决策问题,可以用强化学习来解
分享内容

• 决策智能

• 强化学习的基础概念和思维方式

• 强化学习的落地现状与挑战

8
强化学习定义
p 通过从交互中学习来实现目标的计算方法

智能体(agent)

观察
(observation) 行动(action)

奖励
(reward)
p 三个方面:
• 感知:在某种程度上感知环境的状态
• 行动:可以采取行动来影响状态或者达到目标
• 目标:随着时间推移最大化累积奖励
9
强化学习交互过程
智能体

p 在每一步 t,智能体:
观察 行动 • 获得观察 Ot
𝑂! 𝐴! • 执行行动 At
• 获得奖励 Rt

p 环境:
奖励 𝑅!
• 获得行动 At
• 给出奖励 Rt
• 给出观察 Ot+1

p t 在环境这一步增加

10

环境
在与动态环境的交互中学习
有监督学习
无监督学习

预测模型 固定的数据

强化学习

智能体
动态环境

独特性:策略不同,交互出的数据也不同! 11
一个智能体的例子:MIT机器狗

Margolis et al. Rapid Locomotion via Reinforcement Learning. Arxiv 2205.02824, 2021. 12
https://sites.google.com/view/model-free-speed
强化学习系统要素

p 历史(History)是观察、行动和奖励的序列

𝐻! = 𝑂" , 𝐴" , 𝑅" , 𝑂# , 𝐴# , 𝑅# , … , 𝑂!$" , 𝐴!$" , 𝑅!$" , 𝑂!


• 即,一直到时间t为止的所有可观测变量

• 根据这个历史可以决定接下来会发生什么
• 智能体选择行动

• 环境选择观察和奖励

p 状态(state)是一种用于确定接下来会发生的事情(行动、观察、
奖励)的信息
• 状态是关于历史的函数
𝑆! = 𝑓(𝐻! )

13
强化学习系统要素

p 策略(Policy)是学习智能体在特定状态的动作决策

• 确定性策略(Deterministic Policy) 𝑎 = 𝜋(𝑠)

• 随机策略(Stochastic Policy) 𝜋 𝑎 𝑠 = 𝑃 𝐴! = 𝑎 𝑆! = 𝑠)

智能体
p 奖励(Reward) 𝑅(𝑠, 𝑎)
观察 行动
• 一个定义强化学习目标的标量,能立即感 𝑂! 𝐴!

知到什么是“好”的

p 环境(Environment) 奖励 𝑅!
• 预测下一个状态
!!
𝒫!" = ℙ[𝑆#$% = 𝑠′|𝑆# = 𝑠, 𝐴# = 𝑎]
• 预测下一个(立即)奖励
ℛ!" = 𝔼[𝑅# |𝑆# = 𝑠, 𝐴# = 𝑎] 14

环境
价值-策略的动态规划求解(白盒动态环境)

p 价值是一个标量,用于定义对于长期来说什么是“好”的
p 给策略𝜋定义价值函数:从某个状态和动作开始,获得的累积奖励期望

𝑄& (𝑠, 𝑎) = 𝔼[𝑅(𝑠+ ) + 𝛾𝑅(𝑠% ) + 𝛾 , 𝑅(𝑠, ) + ⋅⋅⋅ |𝑠+ = 𝑠, 𝑎+ = 𝑎, 𝜋]

𝛾𝑄& (𝑠% , 𝑎% )

= 𝑅(𝑠) + 𝛾 5 𝑃!" (𝑠′) 5 𝜋 𝑎* 𝑠 * 𝑄(𝑠 * , 𝑎′) Bellman等式


! ! ∈( " ! ∈)

立即奖励 状态转移

时间折扣 下一个状态的价值

p 基于 𝑄 函数,改进策略 𝜋 ;基于上式,更新 𝑄 函数(策略迭代的动态规划)


15
SARSA强化学习方法(黑盒动态环境)
p 对于当前策略执行的每个(状态-动作-奖励-状态-动作)元组

状态𝑠,执行动作𝑎
观测到奖励𝑟
转移到下一个状态𝑠′

状态𝑠′,执行动作𝑎′

p SARSA更新状态-动作值函数为

𝑄 𝑠, 𝑎 ← 𝑄 𝑠, 𝑎 + 𝛼(𝑟 + 𝛾𝑄 𝑠 % , 𝑎% − 𝑄(𝑠, 𝑎))

16
SARSA算法

注:在线策略时序差分控制(on-policy TD control)使用当前策略进行动作
采样。即,SARSA算法中的两个“A”都是由当前策略选择的

17
SARSA示例:Windy Gridworld

p 每步的奖励 = -1,直到智能体抵达目标网格

p 无折扣因子

注意:随着训练的进行,SARSA策略越来越快速地抵达目标
18
价值和策略近似
𝑄- (𝑠, 𝑎) 𝜋- (𝑎|𝑠)

𝑄- (𝑠, 𝑎) 𝜋- (𝑎|𝑠)

a1 a2 a1 a2
s1 3.2 4.1 s1 0.2 0.8
s2 0.8 1.2 s2 0.4 0.6
𝜃 𝜃
s3 2.3 -0.3 s3 0.9 0.1

价值函数表格 策略表格

𝑠 𝑎 𝑠
价值函数近似 策略近似

p 假如我们直接使用深度神经网络建立这些近似函数呢?
p 深度强化学习!
19
深度强化学习的崛起
• 2012年AlexNet在ImageNet比赛中大幅度领先对手获得冠军

• 2013年12月,第一篇深度强化学习论文出自NIPS 2013
Reinforcement Learning Workshop

20
Volodymyr Mnih, Koray Kavukcuoglu, David Silver et al. Playing Atari with Deep Reinforcement Learning. NIPS 2013 workshop.
深度强化学习
p 深度强化学习
• 利用深度神经网络进行价值函数和策略近似
• 从而使强化学习算法能够以端到端的方式解决复杂问题

Q函数的参数通过神经网络反向传播学习
21
Volodymyr Mnih, Koray Kavukcuoglu, David Silver et al. Playing Atari with Deep Reinforcement Learning. NIPS 2013 workshop.
端到端强化学习

标准(传统)
计算机视觉

深度学习

标准(传统)
强化学习

深度强化学习

• 深度强化学习使强化学习算法能够以端到端的方式解决复杂问题
• 从一项实验室学术变成可以产生GDP的实际技术 22

Slide from Sergey Levine. http://rail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-1.pdf


深度强化学习带来的关键变化
输出:行动

p 将深度学习(DL)和强化学习(RL)
行动价值
结合在一起会发生什么?
• 价值函数和策略变成了深度神经网络
• 相当高维的参数空间 多层全连接
网络
• 难以稳定地训练
• 容易过拟合
• 需要大量的数据
• 需要高性能计算
• CPU(用于收集经验数据)和GPU(用 多层卷积
于训练神经网络)之间的平衡 网络
• …
p 这些新的问题促进着深度强化学习算法
输入:直接观察
的创新
23
在 Atari 环境中的实验结果

normalized performance
DQN score − random play score
=
human score − random play score

The performance of DQN is


normalized with respect to a
professional human games
tester (that is, 100% level)

24

“Human-Level Control Through Deep Reinforcement Learning”, Mnih, Kavukcuoglu, Silver et al. (2015)
深度强化学习的研究前沿
基于模拟模型的强化学习
• 模拟器的无比重要性

目标策动的层次化强化学习
• 长程任务的中间目标是桥梁的基石

模仿学习
• 无奖励信号下跟随专家做策略学习

多智能体强化学习
• 分散式、去中心化的人工智能

离线强化学习
• 训练过程中智能体不能和环境交互

强化学习大模型
• 探索以大的序列建模方式来完成序贯决策任务
25
强化学习大模型:从序列建模来看强化学习任务

Decision Transformer的基本架构

CQL

Transformer的架构
Decision Transformer在一些离线强化学习的任务中已经取
得很不错的效果

26
Chen et al. Decision Transformer: Reinforcement
Learning via Sequence Modeling. NeurIPS 2021.
强化学习大模型:从序列建模来看强化学习任务
p 数字大脑研究院、中科
院和高校团队于2021
年11月发布首个多智能
体强化大模型MADT,
使用一个GPT模型完成
多个星际争霸对战任务。
MADT训练流程

离线训练效果

MADT架构
27
Meng, Linghui, et al. "Offline Pre-trained Multi-Agent Decision Transformer: One
Big Sequence Model Conquers All StarCraftII Tasks." arXiv:2112.02845 (2021). 预训练微调效果
强化学习大模型:从序列建模来看强化学习任务
p DeepMind于2022年5月发布
Gato决策大模型,使用同一个
GPT网络(11.8亿参数)同时
完成约600个任务
• 采样每个任务的专家数据
• 使用完全有监督学习离线训练
• 使用部分专家轨迹做prompt

28
Reed et al. A Generalist Agent. Arxiv 2021.
分享内容

• 决策智能

• 强化学习的基础概念和思维方式

• 强化学习的落地现状与挑战

29
强化学习的落地场景

• 无人驾驶
• 游戏AI
• 交通灯调度
• 网约车派单
• 组合优化
• 推荐搜索系统
• 数据中心节能优化
• 对话系统
• 机器人控制
• 路由选路
• 工业互联网场景
•…

30
快递仓库分拣机器人

Tech China 31
强化学习技术在体育场景的新尝试

Hoang M. Le, Peter Carr,Yisong Yue and Patrick Lucey 32


Data-Driven Ghosting using Deep Imitation Learning
MIT Sloan Sports Analytics Conference (SSAC), 2017 (Soccer) https://github.com/linouk23/NBA-Player-Movements
无人驾驶归控
专门为训练无人驾驶场景下的多智能体规控AI的模拟器

https://github.com/huawei-noah/SMARTS 33

Zhou et al. SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for Autonomous Driving. CoRL 2020.
强化学习技术落地的挑战

人对于AI的更高要求

p 强化学习要求机器做出决策,改变世界,这其实是赋予了AI更大的权
力,反过来也就对强化学习算法有了更高的要求
p 高仿真度模拟器和安全强化学习技术

决策场景千变万化

p 任务多种多样,目标、数据、效率要求等皆不同
p 需要算法团队对具体的场景任务比较了解

算力的极大需求
p Trial-and-error学习机制导致强化学习比起预测型深度学习模型需求
的数据量和相应的算力都更大(大1~2个数量级)
p 一个统一的、高效的、服务强化学习的计算平台很重要 34
THANK YOU

张伟楠 欢迎关注

上海交通大学 《动手学强化学习》

http://wnzhang.net https://hrl.boyuai.com/

You might also like