Professional Documents
Culture Documents
原文修改
原文修改
原文修改
课程作业
学生姓名: 李志毅
学生学号: 2018218662
指导教师: 王安宁
1.强化学习的发展
提 到 强 化 学 习 ( Reinforcement Learning ) , 不 得 不 联 想 到 人 工 智 能
(Artificial Intelligence)。人工智能作为一个拥有近六十年历史的计算机科学
下属的复杂学科,它给人们的生活带来了巨大的改变,其具体的操作是仿生,
即通过效仿人类的学习方式设计算法,达到特定的目标。人工智能早期的研究
方向是机器学习。
1.1 机器学习
机器学习(Machine Learning)的历史较为悠久,其主要应用于预测领域,
目前拥有丰富的研究成果,模型主要有:线性回归、逻辑回归、决策树模型、
支持向量机、贝叶斯模型、正则化模型、模型集成、神经网络等。在这些预测
模型中,都有特定的参数,这些参数可以根据实际情况进行调整。机器学习的
目的是找出数据的特定规律,通过规律进行预测。
图 1 人工神经网络
机器学习通过建立预测模型并对模型训练得到对应结果,步骤如下:首先
选择一个基础模型并基于此模型建立一个特定的模型,然后将训练数据集输入
模型,根据学习算法对模型进行不断地测试调试,输出一个最优模型。
1.2 深度学习
深度学习(Deep Learning)是机器学习的分支领域。其主要来源于计算科
学学者对神经网络的深入研究。深度学习的主要目的是模拟人脑的学习方式建
立神经网络,通过建立数学模型将底层的数据特征抽象出来,将底层的数据特
征汇总得到高层数据的数据特征。
图 2 神经网络和深度学习神经网络
在日常生活中,深度学习最终输出方式有:视频、文字、图像等。如:人
脸识别、语音识别、语义挖掘、词频统计等。
1.3 强化学习
强化学习是通过特定模型对已有的历史数据进行处理计算,同时探索环境
的变化规律以及新数据的输入对已有的模型与算法进行不断地更新迭代即加以
完善的将预测与优化相结合的机器学习方法。
1.3.1 强化学习模型
(1)基本模型
强化学习是基于动物学习和控制理论发展得到的。其主要过程如下:
假设智能体(Agent)进行了决策,并对环境造成了或正向或负向的影响,环境
会将这个影响转化为数值关系反馈给智能体,智能体会通过这个强化信号进行
判断,如果是奖励信号,即对环境产生了正向的影响,那么智能体在未来的决
策中就会偏向这一决策;如果是惩罚信号,即对环境产生了负面的影响,那么
智能体在未来的决策中就会尽量避免相关决策。
图 3 强化学习基本模型
强化学习与以往的监督学习有所区别,其区别为教师信号对智能体决策的
影响。监督学习会直接命令智能体进行一系列决策,具有极强的主观性,但是
强化学习是通过决策对环境影响而产生教师信号对决策进行干预,相比于监督
学习有更好的客观性,更有利于发现环境的规律性,而不是通过人为判断去定
义环境的规律性。
(2)马尔可夫决策
图 4 马尔科夫链
马尔可夫决策过程针对具有马尔可夫性质的所及时间,以模拟智能体所进
行的一系列随机性策略和相应的收益。马尔科夫决策要素有: 状态空间
(state)、动作空间(action)、决策(decision)、奖励(reward)、收益
(return)。
因此马尔可夫决策过程的模型包括了:随机事件转移概率、样本轨迹、状
态值函数、动作值函数、折现汇报。
图 5 有限马尔可夫决策过程
1.3.2 强化学习推广
(1)约束马尔可夫决策过程
此项决策过程加入了约束限定条件,即智能体在做出决策并接受环境反馈
的过程中,要确保环境状态资源的限制,使其不超过约定的值域。例如马尔科
夫决策的投资问题,智能体在求最优解的过程中会考虑到收益的最大化,但是
实际生活中的投资问题往往带有风险性,企业的管理者在做决策时往往会使风
险性限定在某一范围内,将此范围定义为可接受的范围,然后求得期望收益的
最大值;其次是马尔可夫决策的交通管理问题,在交通管理问题中,智能体首
先应当保证道路的车流量最大,即道路利用效率最高为第一目标,但是实际生
活中会有车辆延迟时间、特定路段车辆通行限制等问题。
(2)模糊马尔科夫决策
模糊马尔科夫决策问题由动态规划与模糊理论(模糊数学)结合进行求
解,在常规求解阶段采用动态规划算法,在决策评估与改进阶段采用模糊数学
进行指导。
(3)部分可观察马尔科夫决策
在此马尔可夫链中,环境的状态不是完全已知的,即智能体只能感知部分
环境的变化以做出相应决策。例如智能驾驶,在驾驶过程中,智能体只能通过
传感器感知某一提前设定距离内的道路交通情况,不能提前预知限制距离外的
环境变化,因此需要对观测概率与观测空间进行提前的参数设定,保证智能驾
驶的安全可靠性。
2.Google 强化学习的发展
2.1Google 强化学习的目标
Google 在人工智能领域的发展离不开其对机器学习的深入研究和大量投
入,Google 目前在人工智能科研产品领域设定了三个目标:使产品的实用可靠
性大大提高;通过机器学习使得企业的研发人员和消费者能够自主对产品进行
不同程度的创新;让机器学习为企业内部研发人员最好的工具,解决重大难
题。
2.2Google 强化学习的应用
Google 在 强 化 学 习 方 面 的 应 用 及 开 发 的 产 品 数 目 较 多 , 如 Google
Photos 、 Google Lens 、 Google Maps 、 Gmail 、 Inbox 、 YouTube 、 Google
Translator 等。
Google Photos 为云端相片集,即通过人脸识别和环境识别的技术将照片进
行分类。
YouTube 中强化学习的应用是通过对视频网站内巨量的视频内容进行学习
与视频内容的识别,自动给出上传者上传的视频相应的字幕和翻译.
2.3Google 代码开源与相关课程
2.3.1Google 核心代码开源
2.3.2Google 机器学习课程
基于机器学习的热度越来越高,广大网友对于机器学习的渴望探索程度也
随之增高,作为最具代表性的前沿技术研发公司,Google 于 2018 年上线了机器
学习课程。并且推出了中文版本,便于广大中国网友学习。其内容不仅包括了
细致的课程讲解,还包括了练习和测试,能够满足热爱机器学习的网友的需
求。这些课程在几年前是入职 Google 的软件工程师必须要深入学习与钻研的,
许多 Google 产品基础架构灵感均来源于此。
图 6 Google 机器学习课程平台
3.强化学习算法简单应用
3.1 问题背景
考虑如下的小游戏:玩家凭借一张地图,利用初始资金购买一定数量的水
和食物(包括食品和其他日常用品),从起点出发,在沙漠中行走。途中会遇
到不同的天气,也可在矿山、村庄补充资金或资源,目标是在规定时间内到达
终点,并保留尽可能多的资金。
游戏的基本规则如下:
(1)以天为基本时间单位,游戏的开始时间为第 0 天,玩家位于起点。玩
家必须在截止日期或之前到达终点,到达终点后该玩家的游戏结束。
(2)穿越沙漠需水和食物两种资源,它们的最小计量单位均为箱。每天玩
家拥有的水和食物质量之和不能超过负重上限。若未到达终点而水或食物已耗
尽,视为游戏失败。
(3)每天的天气为“晴朗”、“高温”、“沙暴”三种状况之一,沙漠中
所有区域的天气相同。
(4)每天玩家可从地图中的某个区域到达与之相邻的另一个区域,也可在
原地停留。沙暴日必须在原地停留。
(5)玩家在原地停留一天消耗的资源数量称为基础消耗量,行走一天消耗
的资源数量为基础消耗量的倍。
(6)玩家第 0 天可在起点处用初始资金以基准价格购买水和食物。玩家可
在起点停留或回到起点,但不能多次在起点购买资源。玩家到达终点后可退回
剩余的水和食物,每箱退回价格为基准价格的一半。
(7)玩家在矿山停留时,可通过挖矿获得资金,挖矿一天获得的资金量称
为基础收益。如果挖矿,消耗的资源数量为基础消耗量的倍;如果不挖矿,消
耗的资源数量为基础消耗量。到达矿山当天不能挖矿。沙暴日也可挖矿。
(8)玩家经过或在村庄停留时可用剩余的初始资金或挖矿获得的资金随时
购买水和食物,每箱价格为基准价格的 2 倍。
3.2 具体关卡设置与地图
玩家个数:
表 1 参数设定
水 3 5 3 9 10
食物 2 10 4 9 10
天气状况:玩家仅知道当天的天气状况,但已知 30 天内较少出现沙暴气
候。
3.3 问题分析
所有玩家仅知道当天的天气状况,从第 1 天起,每名玩家在当天行动结束
后均知道其余玩家当天的行动方案和剩余的资源数量,随后确定各自第二天的
行动方案。由于天气情况未知,玩家人数多,导致本题未知参数过多。因此采
用强化学习算法对此问题进行求解。
强化学习算法属于机器学习的方法,使用强化学习能够让机器不断的试
错,不断尝试,累加经验,学习经验。利用强化学习中的 Q-Learning 算法进行
表格学习,对本题进行求解。
3.4 模型建立
3.4.1 奖励矩阵
(1)基础奖励矩阵
(2)奖励矩阵变化规则
天气晴朗、高温、沙暴时,奖励矩阵分别数乘 1,0.5,0.01(抑制活动);k
人一起走时奖励矩阵数乘 1/k;走向终点的奖励 8 随剩余天数
的递减而逐渐增加。即
其中 i 为天气状况。
3.4.2 状态转移
提出的算法的转移规则比较简单,如下所示
其中,s,a 表示当前的状态和行为,表示 s 的下一状态及行为;学习参数为
满足的常数,Q 为知识矩阵,初始化为零矩阵,在学习过程中不断迭代更新。
3.4.3 学习过程
(1)在当前状态 s 的所有可能行为中选取行为 a;
(2)将状态转移至;
(3)利用状态转移公式更新知识矩阵 Q;
(4)更新状态。
3.4.4 最优决策
(1)令当前状态 s=s0;
(2)确定行为 a,使得;
(4)重复执行步骤(2)(3),直至达到目标状态。
3.5 模型求解与分析
3.5.1 求解思路
将地图上的各个区域编号作为玩家状态,按概率{晴天:0.45,高温:
0.45,沙暴:0.1}随机生成天气,每次将三个玩家随机放入地图中,进行一次决
策,完
3.5.2 结果分析
在出发后玩家 1 单独行走到区域 6,而玩家 2 和玩家 3 一起走到区域 2,多
消耗物资并且承担着接下来继续“撞到一起”的风险。因此玩家 1 在初始阶段
积 累了一定优势,在后续矿山和村庄的占用上具有更优的选择,游戏结束后玩
家 1 的剩余资金显著高于玩家 2 与玩家 3 的。由此可见模型具有一定的可解释
性。
3.6 关键代码展示
由于矩阵较为冗长,会占据较大篇幅,且没有意义,此处将不展示矩阵部
分代码,仅展示计算部分关键代码
3.7 模型评价与总结
优点:
通过博弈论和强化学习的综合运用,使得仿真结果更加符合实际情况,具
有现实意义。
缺点:
(1)算法中对奖励矩阵的设计及更新规则不是最合理形式,训练过程耗时
较长。
(2)在此游戏策略制定过程中,默认玩家间为合作关系,在后续模型改进
时可以考虑加入非合作博弈。