Professional Documents
Culture Documents
4 1 决策智能:任务与技术概览
4 1 决策智能:任务与技术概览
决策智能在线峰会 决策智能前沿论坛
决策智能:任务与技术概览
张伟楠
上海交通大学
http://wnzhang.net
欢迎关注《动手学强化学习》
https://hrl.boyuai.com/
分享内容
• 决策智能技术概览
• 强化学习的基础概念和思维方式
• 强化学习的落地现状与挑战
2
两种人工智能任务类型
p 预测型任务
• 根据数据预测所需输出(有监督学习)
• 生成数据实例(无监督学习)
p 决策型任务
• 在静态环境中优化目标(优化问题)
• 在动态环境中采取行动(强化学习)
3
决策智能的任务和技术分类
p 根据决策环境的动态性和透明性,决策任务大致分为以下四个部分,
对应具体的技术方案
白盒环境 黑盒环境
环境特性 • 变量和目标之间的关系 • 变量和目标之间的关系
可以用具体公式表示 无法用具体公式表示
序贯决策 4
运筹优化(Operational Research)
p 运筹优化任务往往可以由数学公式直接写出,是典型的白盒环境,以
常见的混合整数规划问题为例
变量 目标 约束
5
生产排期例子 变量:每个时段生产的物品和量 约束:生产物品、生产环境的依赖 目标:成本
黑盒优化(Black-box Optimization)
p 黑盒优化任务往往无法由数学公式直接写出输入和输出的对应关系,
主要面临的挑战包括无显式解、收敛性等问题
优化的目标函数未知、甚
至评估也不容易
在一定范围内寻找最优变量
工业制造例子:一套生产线500个参数可以调整,需要找到合适的参数,使得产出零件的 6
坏件率最低;但开启生产线后一段时间才能计算坏件率。
序贯决策(Sequential Decision Making)
p 序贯决策中,智能体序贯地做出一个个决策,并接续看到新的观测,
直到最终任务结束
智能体 动态环境
机器狗例子:操作轮足和地形持续交互,完成越过障碍物的任务
7
绝大多数序贯决策问题,可以用强化学习来解
分享内容
• 决策智能
• 强化学习的基础概念和思维方式
• 强化学习的落地现状与挑战
8
强化学习定义
p 通过从交互中学习来实现目标的计算方法
智能体(agent)
观察
(observation) 行动(action)
奖励
(reward)
p 三个方面:
• 感知:在某种程度上感知环境的状态
• 行动:可以采取行动来影响状态或者达到目标
• 目标:随着时间推移最大化累积奖励
9
强化学习交互过程
智能体
p 在每一步 t,智能体:
观察 行动 • 获得观察 Ot
𝑂! 𝐴! • 执行行动 At
• 获得奖励 Rt
p 环境:
奖励 𝑅!
• 获得行动 At
• 给出奖励 Rt
• 给出观察 Ot+1
p t 在环境这一步增加
10
环境
在与动态环境的交互中学习
有监督学习
无监督学习
预测模型 固定的数据
强化学习
智能体
动态环境
独特性:策略不同,交互出的数据也不同! 11
一个智能体的例子:MIT机器狗
Margolis et al. Rapid Locomotion via Reinforcement Learning. Arxiv 2205.02824, 2021. 12
https://sites.google.com/view/model-free-speed
强化学习系统要素
p 历史(History)是观察、行动和奖励的序列
• 根据这个历史可以决定接下来会发生什么
• 智能体选择行动
• 环境选择观察和奖励
p 状态(state)是一种用于确定接下来会发生的事情(行动、观察、
奖励)的信息
• 状态是关于历史的函数
𝑆! = 𝑓(𝐻! )
13
强化学习系统要素
p 策略(Policy)是学习智能体在特定状态的动作决策
• 随机策略(Stochastic Policy) 𝜋 𝑎 𝑠 = 𝑃 𝐴! = 𝑎 𝑆! = 𝑠)
智能体
p 奖励(Reward) 𝑅(𝑠, 𝑎)
观察 行动
• 一个定义强化学习目标的标量,能立即感 𝑂! 𝐴!
知到什么是“好”的
p 环境(Environment) 奖励 𝑅!
• 预测下一个状态
!!
𝒫!" = ℙ[𝑆#$% = 𝑠′|𝑆# = 𝑠, 𝐴# = 𝑎]
• 预测下一个(立即)奖励
ℛ!" = 𝔼[𝑅# |𝑆# = 𝑠, 𝐴# = 𝑎] 14
环境
价值-策略的动态规划求解(白盒动态环境)
p 价值是一个标量,用于定义对于长期来说什么是“好”的
p 给策略𝜋定义价值函数:从某个状态和动作开始,获得的累积奖励期望
𝛾𝑄& (𝑠% , 𝑎% )
立即奖励 状态转移
时间折扣 下一个状态的价值
状态𝑠,执行动作𝑎
观测到奖励𝑟
转移到下一个状态𝑠′
状态𝑠′,执行动作𝑎′
p SARSA更新状态-动作值函数为
16
SARSA算法
注:在线策略时序差分控制(on-policy TD control)使用当前策略进行动作
采样。即,SARSA算法中的两个“A”都是由当前策略选择的
17
SARSA示例:Windy Gridworld
p 每步的奖励 = -1,直到智能体抵达目标网格
p 无折扣因子
注意:随着训练的进行,SARSA策略越来越快速地抵达目标
18
价值和策略近似
𝑄- (𝑠, 𝑎) 𝜋- (𝑎|𝑠)
𝑄- (𝑠, 𝑎) 𝜋- (𝑎|𝑠)
a1 a2 a1 a2
s1 3.2 4.1 s1 0.2 0.8
s2 0.8 1.2 s2 0.4 0.6
𝜃 𝜃
s3 2.3 -0.3 s3 0.9 0.1
价值函数表格 策略表格
𝑠 𝑎 𝑠
价值函数近似 策略近似
p 假如我们直接使用深度神经网络建立这些近似函数呢?
p 深度强化学习!
19
深度强化学习的崛起
• 2012年AlexNet在ImageNet比赛中大幅度领先对手获得冠军
• 2013年12月,第一篇深度强化学习论文出自NIPS 2013
Reinforcement Learning Workshop
20
Volodymyr Mnih, Koray Kavukcuoglu, David Silver et al. Playing Atari with Deep Reinforcement Learning. NIPS 2013 workshop.
深度强化学习
p 深度强化学习
• 利用深度神经网络进行价值函数和策略近似
• 从而使强化学习算法能够以端到端的方式解决复杂问题
Q函数的参数通过神经网络反向传播学习
21
Volodymyr Mnih, Koray Kavukcuoglu, David Silver et al. Playing Atari with Deep Reinforcement Learning. NIPS 2013 workshop.
端到端强化学习
标准(传统)
计算机视觉
深度学习
标准(传统)
强化学习
深度强化学习
• 深度强化学习使强化学习算法能够以端到端的方式解决复杂问题
• 从一项实验室学术变成可以产生GDP的实际技术 22
p 将深度学习(DL)和强化学习(RL)
行动价值
结合在一起会发生什么?
• 价值函数和策略变成了深度神经网络
• 相当高维的参数空间 多层全连接
网络
• 难以稳定地训练
• 容易过拟合
• 需要大量的数据
• 需要高性能计算
• CPU(用于收集经验数据)和GPU(用 多层卷积
于训练神经网络)之间的平衡 网络
• …
p 这些新的问题促进着深度强化学习算法
输入:直接观察
的创新
23
在 Atari 环境中的实验结果
normalized performance
DQN score − random play score
=
human score − random play score
24
“Human-Level Control Through Deep Reinforcement Learning”, Mnih, Kavukcuoglu, Silver et al. (2015)
深度强化学习的研究前沿
基于模拟模型的强化学习
• 模拟器的无比重要性
目标策动的层次化强化学习
• 长程任务的中间目标是桥梁的基石
模仿学习
• 无奖励信号下跟随专家做策略学习
多智能体强化学习
• 分散式、去中心化的人工智能
离线强化学习
• 训练过程中智能体不能和环境交互
强化学习大模型
• 探索以大的序列建模方式来完成序贯决策任务
25
强化学习大模型:从序列建模来看强化学习任务
Decision Transformer的基本架构
CQL
Transformer的架构
Decision Transformer在一些离线强化学习的任务中已经取
得很不错的效果
26
Chen et al. Decision Transformer: Reinforcement
Learning via Sequence Modeling. NeurIPS 2021.
强化学习大模型:从序列建模来看强化学习任务
p 数字大脑研究院、中科
院和高校团队于2021
年11月发布首个多智能
体强化大模型MADT,
使用一个GPT模型完成
多个星际争霸对战任务。
MADT训练流程
离线训练效果
MADT架构
27
Meng, Linghui, et al. "Offline Pre-trained Multi-Agent Decision Transformer: One
Big Sequence Model Conquers All StarCraftII Tasks." arXiv:2112.02845 (2021). 预训练微调效果
强化学习大模型:从序列建模来看强化学习任务
p DeepMind于2022年5月发布
Gato决策大模型,使用同一个
GPT网络(11.8亿参数)同时
完成约600个任务
• 采样每个任务的专家数据
• 使用完全有监督学习离线训练
• 使用部分专家轨迹做prompt
28
Reed et al. A Generalist Agent. Arxiv 2021.
分享内容
• 决策智能
• 强化学习的基础概念和思维方式
• 强化学习的落地现状与挑战
29
强化学习的落地场景
• 无人驾驶
• 游戏AI
• 交通灯调度
• 网约车派单
• 组合优化
• 推荐搜索系统
• 数据中心节能优化
• 对话系统
• 机器人控制
• 路由选路
• 工业互联网场景
•…
30
快递仓库分拣机器人
Tech China 31
强化学习技术在体育场景的新尝试
https://github.com/huawei-noah/SMARTS 33
Zhou et al. SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for Autonomous Driving. CoRL 2020.
强化学习技术落地的挑战
人对于AI的更高要求
p 强化学习要求机器做出决策,改变世界,这其实是赋予了AI更大的权
力,反过来也就对强化学习算法有了更高的要求
p 高仿真度模拟器和安全强化学习技术
决策场景千变万化
p 任务多种多样,目标、数据、效率要求等皆不同
p 需要算法团队对具体的场景任务比较了解
算力的极大需求
p Trial-and-error学习机制导致强化学习比起预测型深度学习模型需求
的数据量和相应的算力都更大(大1~2个数量级)
p 一个统一的、高效的、服务强化学习的计算平台很重要 34
THANK YOU
张伟楠 欢迎关注
上海交通大学 《动手学强化学习》
http://wnzhang.net https://hrl.boyuai.com/