Professional Documents
Culture Documents
基于安全强化学习的热电联产机组经济调度策略研究 王欣
基于安全强化学习的热电联产机组经济调度策略研究 王欣
《系统仿真学报》网络首发论文
题目: 基于安全强化学习的热电联产机组经济调度策略研究
作者: 王欣,崔承刚,王想想,朱平
DOI: 10.16182/j.issn1004731x.joss.23-1472
收稿日期: 2023-12-04
网络首发日期: 2024-05-08
引用格式: 王欣,崔承刚,王想想,朱平.基于安全强化学习的热电联产机组经济调度
策略研究[J/OL].系统仿真学报.
https://doi.org/10.16182/j.issn1004731x.joss.23-1472
网络首发:在编辑部工作流程中,稿件从录用到出版要经历录用定稿、排版定稿、整期汇编定稿等阶
段。录用定稿指内容已经确定,且通过同行评议、主编终审同意刊用的稿件。排版定稿指录用定稿按照期
刊特定版式(包括网络呈现版式)排版后的稿件,可暂不确定出版年、卷、期和页码。整期汇编定稿指出
版年、卷、期、页码均已确定的印刷或数字出版的整期汇编稿件。录用定稿网络首发稿件内容必须符合《出
版管理条例》和《期刊出版管理规定》的有关规定;学术研究成果具有创新性、科学性和先进性,符合编
辑部对刊文的录用要求,不存在学术不端行为及其他侵权行为;稿件内容应基本符合国家有关书刊编辑、
出版的技术标准,正确使用和统一规范语言文字、符号、数字、外文字母、法定计量单位及地图标注等。
为确保录用定稿网络首发的严肃性,录用定稿一经发布,不得修改论文题目、作者、机构名称和学术内容,
只可基于编辑规范进行少量文字的修改。
出版确认:纸质期刊编辑部通过与《中国学术期刊(光盘版)》电子杂志社有限公司签约,在《中国
学术期刊(网络版)》出版传播平台上创办与纸质期刊内容一致的网络版,以单篇或整期出版形式,在印刷
出版之前刊发论文的录用定稿、排版定稿、整期汇编定稿。因为《中国学术期刊(网络版)》是国家新闻出
版广电总局批准的网络连续型出版物(ISSN 2096-4188,CN 11-6037/Z),所以签约期刊的网络版上网络首
发论文视为正式出版。
网络首发时间:2024-05-08 11:57:49
网络首发地址:https://link.cnki.net/urlid/11.3092.v.20240506.1932.005
基于安全强化学习的热电联产机组经济调度策略研究
王欣,崔承刚*,王想想,朱平
(上海电力大学自动化工程学院,上海 200090)
摘要:针对深度强化学习(DRL)算法在热电联产(CHP)机组优化中缺乏安全性和稳定性保证的
问题,提出了一种基于安全强化学习(SRL)的调度优化方法。该方法将 DRL 算法与控制障碍函
数(CBF)相结合,探索安全稳定的优化策略。首先,在 Dymola 平台以 CHP 机组为热源建立了区
域供热系统模型。其次,设计了 CHP 机组经济调度的马尔科夫决策过程(MDP)模型,并通过 CBF
指导 DRL 安全探索。最后,通过在供热系统模型上对比 CBF-DRL 方法、标准 DRL 方法和非线性
数学优化器的仿真结果,得出以下结论:CBF-DRL 方法在复杂且非线性的区域供热系统中,不仅
能够提升 DRL 算法的收敛速度,还能够有效利用供热管道的热惯性提高 CHP 机组的经济效益,并
在安全性方面表现出显著的优势。
关键词:热电联产;区域供热系统;安全强化学习;控制障碍函数;经济调度;协同仿真
中图分类号:TP391.9 文献标志码:A
DOI: 10.16182/j.issn1004731x.joss.23-1472
Abstract: In addressing the challenge of the Deep Reinforcement Learning (DRL) algorithm in the
optimization of Combined Heat and Power (CHP) units, lacking safety and stability guarantees, a
scheduling optimization method based on Safe Reinforcement Learning (SRL) is proposed. This method
integrates the DRL algorithm with Control Barrier Functions (CBF) to explore secure and stable
optimization strategies. Utilizing the Dymola platform, a district heating system model was constructed
with the CHP unit as the heat source. Subsequently, a Markov Decision Process (MDP) model for the
economic dispatch of CHP units is designed, incorporating CBF to guide safe exploration in DRL.
Comparative simulations on the heating system model reveal that the CBF-DRL method, in complex and
nonlinear district heating systems, not only accelerates the convergence of DRL algorithms but also
efficiently utilizes the thermal inertia of heating pipelines to enhance the economic performance of CHP
units. Notably, it exhibits significant advantages in terms of safety.
Keywords: combined heat and power; district heating system; safe reinforcement learning; control barrier
function; economic dispatch; co-simulation
收稿日期:2023-12-04 修回日期:2024-02-22
基金项目:上海市 2021 年度“科技创新行动计划”科技支撑碳达峰碳中和专项(21DZ1207302);国家自然科学基金青年科学基金项目(51607111)
第一作者:王 欣(1999—),女,硕士研究生,研究方向为能源系统控制与优化调度,E-mail:18795358018@163.com
通讯作者:崔承刚(1981—),男,博士,副教授,研究方向为分布式能源系统预测与优化调度,E-mail:cgcui@Shiep.edu.cn
http:∥www.china-simulation.com
第 xx 卷第 x 期 系统仿真学报© Vol. xx No. x
xxxx 年 xx 月 Journal of System Simulation xx. xxxx
0 引言 训练才能收敛到更好的策略。在训练过程中,
常常会出现不安全的探索,可能导致系统的安
热电联产(combined heat and power,CHP)是
全性无法得到保障。
一种多联产能源系统,将供热与供电结合在一起,
2) 在庞大的状态空间中,智能体通过随机试错获
以实现能源高效利用 [1] 。区域供热网络(district
取奖励的概率非常低。仅依赖 DRL 来探索策
heating network,DHN)是一种集中供热系统,通
略可能导致 DRL 网络难以收敛。
过将能量传输到最终用户的温度流体分配能源[2]。
安全强化学习(safe reinforcement learning,SRL)
将 CHP 系统与区域供热网络相结合(CHP-DHN)
旨在满足安全约束的前提下,通过最大化期望回报
的概念旨在充分发挥两种技术的优势,通过自然协
值来找到最优策略。控制障碍函数(control barrier
调降低总生产成本[3]并改善环境影响[4]。目前针对
function,CBF)是一种有模型的方法,通过构建一
CHP-DHN 优化调度方法通常依赖于人工经验。然
个安全集来确保系统的安全性。在基于学习的方法
而,在 DHN 涉及复杂的热源或管网结构时,这类
中,CBF 常被用作每个训练步骤的动作过滤器,以
方法的有效性受到挑战[5]。
引导 DRL 的安全探索[12]。Cheng 及其团队[13]提出
在考虑热网时间延迟的情况下,CHP-DHN 调
了一种混合控制策略,将基于模型的控制器与基于
度优化问题演变成一种典型的混合整数非线性规
学习的控制器结合,以保障系统的安全性。Marvi
划 问 题 ( mixed integer nonlinear programming
和 Kiumarsi[14]将 CBF 与 RL 算法相融合,得到一种
problem,MINLP)。然而,目前尚未发现一种具
前瞻性的安全策略,以实现控制系统稳定性和安全
备鲁棒性和可预测性能的算法来求解这类问题。现
性之间的权衡。Cohen 等人[15]将 CBF 引入 RL 中,
有方法通过引入一些先进的控制算法,如模型预测
缓解了智能体无限制探索带来的安全隐患。
控制算法[6],模糊直接矩阵控制方法[7]等,以增强
针对深度强化学习算法在 CHP 机组优化问题
系统的稳定性和收敛性。然而,以上控制方法都依
中缺乏安全性和稳定性保证的问题,本文提出了一
赖于精确的区域供热管网动态模型,这使得在实际
种基于 SRL 的调度优化方法。首先,本文在 Dymola
应用中面临一些挑战,特别是应对不同实际场景时
平台以 CHP 机组为热源的区域供热系统为例,基
可能遇到困难。 [16] [17]
于 IBPSA 库 、Disheatlib 库 以及 Modelica 标准
近年来,由于不需要对系统进行精确的建模, [18]
模型库 Modelica Standard Library 建立了区域供
强化学习(reinforcement learning,RL)方法已成功
热系统模型,并在 Dymola 仿真平台上实现模型仿
应用于天然气管网优化调度 [8],能源转换控制[9]与
真。其次,本文设计了基于 CBF 的 CHP-DHN 经济
集中供热网络的恒温控制[10]中。这些研究案例充分
调度的马尔科夫决策过程(markov decision process,
表明,RL 算法在处理非线性系统的复杂动态和高
MDP)模型,并通过 CBF 指导 DRL 安全探索。该
维问题方面具备巨大的潜力。然而,由于 RL 算法
模型选取供热系统温度、质量流量、热量需求等作
在学习过程中采取试错方法,在状态空间比较大时,
为模型状态,CHP 机组产热量和产电量作为模型动
用这一方法求解非常困难,且容易出现不安全的探
作,并以提高 CHP 机组经济性收益为目标设计奖
索,这是应用 RL 算法的一大挑战。
励 函 数 。 再 次 , 本 文 基 于 Modelica / Dymola
深度强化学习(deep reinforcement learning,
CHP-DHN 模型,开发了 Modelica CHP-DHN Gym
DRL)兼具深度神经网络的函数逼近能力和 RL 的决
( MC- DG) 工 具 包 , 用 于 Modelica 模 型 与
策能力,以数据驱动方式提供实时灵活的控制决策
OpenAI Gym 工具包协同仿真。最后,通过仿真验
[11]
。然而,使用 DRL 时需要注意以下两个方面:
证本文所提策略的有效性。
1) DRL 方法的初始策略并非最优,需要经过大量
http:∥www.china-simulation.com
第 xx 卷第 x 期 系统仿真学报© Vol. xx No. x
xxxx 年 xx 月 Journal of System Simulation xx. xxxx
式中: 为供水管道出口温度;
S R
出口温度; c w 为水的比热容; mt 为质量流量。 out,t in,t 为回水管道
入口温度。
2.管道模型
本文基于时滞热损和活塞流模型建立供热管 1.3 CHP-DHN约束条件
网模型[19]。该模型考虑了沿管道长度的传输延迟和
1. CHP 机组运行约束
管道壁的热惯性。
CHP 机组运行的出力可行域[20,21]表达式为:
http:∥www.china-simulation.com
第 xx 卷第 x 期 系统仿真学报© Vol. xx No. x
xxxx 年 xx 月 Journal of System Simulation xx. xxxx
2. 供热管道温度约束
热源的供应温度应高于阈值,以确保负荷服务
质量,且不超过上限,以防止蒸汽形成。回流温度
也应保持在其限值范围内:
S kS,t S
(7)
R kR,t R
t T , k 1, 2, , NB
式中: k ,t , k ,t 为 t 时刻供应管道和回水管道节点 k
S R
处的温度; S , S 分别为供应管道水温的上下限;
R , 分别为回水管道水温的上下限; N B 为管道
R
图 3 基于 Modelica /Dymola 的区域供热系统仿真图
设置的温度传感器个数。 Fig. 3 Simulation diagram of district heating system based on
Modelica/Dymola
3. 热媒质量流量约束
供水和回水管道中的质量流量不应该超过最 热源由 baseSupply 提供,经管道 pipe 流向
大限制值。否则,可能发生管道破裂造成安全事故。 substation 进 行 换 热 , 并 将 热 量 提 供 给 热 用 户
由于在本文建立的管道模型中,供水和回水管道的 demandDHW/SH。供回水管道的温度由温度传感器
质量流量相等,则: senTem 测 量 , 热 媒 质 量 流 量 由 流 量 传 感 器
0 mt mmax,t , t T (8) senH_flow 测量。
式中: mmax,t 为允许通过管道的质量流量最大值。
4. 热量需求平衡约束 1.5 基于 Modelica 建模的管道热惯性验证
http:∥www.china-simulation.com
第 xx 卷第 x 期 系统仿真学报© Vol. xx No. x
xxxx 年 xx 月 Journal of System Simulation xx. xxxx
状态 环境
{s,a,r,s'}
, ,
经验池
热需求/MW
动作
、ℎ
CBF-DRL优化器
电价/¥
DRL
CBF
约束
时间/h
更新网络参数
图 5 (a)供应管道入口和出口的温度变化示意图 (b)供应管
道入口和出口的焓流量变化示意图 2.1 目标函数设计
Fig. 5 (a)Diagram of temperature flow changes at inlet and
outlet of supply pipeline. 本文旨在保证供热质量的前提下,通过优化
(b)Diagram of enthalpy flow changes at inlet and outlet of CHP 机组的运行,实现其自身收益的最大化,通过
最大化期望收益目标函数 J ( ) 来构造:
supply pipeline
http:∥www.china-simulation.com
第 xx 卷第 x 期 系统仿真学报© Vol. xx No. x
xxxx 年 xx 月 Journal of System Simulation xx. xxxx
J ( ) max E[ r ( s, a )] 值的动作作为输出。然后,与环境交互执行每个动
aA
c p a 0ht a1 pt 环境
Ft t t , t T (11) a
4
式中:a 0 和 a 1 分别为产热和产电成本系数;ct 为波 s,s'
s'
动电价;ht 和 pt 分别为调度策略给出的产热量和产
{s,a,r,s'} 经验池
电量。
图 8 DDQN 原理图
2.2 基于CBF的DRL优化算法设计 Fig. 8 Diagram of DDQN
本文的策略迭代过程如图 7 所示。该算法从策
CHP-DHN 经济调度的 MDP 模型设计如下:
略空间中的一个不安全初始策略 0 开始,由于 DRL
1. 动作空间 A
智能体的随机探索过程缺乏安全性保证,将导致一
动作空间变量设置为 CHP 机组的产热量 ht 和
个次优策略产生,最后由二次规划导出的 CBF 控制
产电量 pt 。由于 DDQN 是一种离散的 RL 算法,因
器将 DRL 策略引导到一个安全且最优的策略空间。
此,动作空间 A a1 , a2 , , an , ai hi , pi 。
2. 状态空间 S
策略空间
本文将状态空间分为内部部分和外部部分来
次优策略
表征。内部状态空间由供回水管道每个节点 k 处的
温度 k ,t , k ,t 和管道中热媒的质量流量 mt 组成,外
S R
最优策略
CBF-QP
部状态空间包括室外温度 t0 、热量需求 H demand,t 与
初始策略 0 电价 ct ,这些外部环境信息用于指导智能体探索策
略。即系统状态空间为:
图 7 策略迭代过程图
st kS,t , kR,t , mt , t0 , ct , H demand,t (12)
Fig. 7 Strategy Iteration Process Diagram
3. 奖励函数 R
2.2.1 DRL 优化器的设计
本文的优化目标是在满足用户热需求、保持热
本文使用 DDQN 算法来训练 DRL 智能体。 媒体质量流量以及维持可行的供热管道出入口温
DDQN 算法通过解决 DQN 算法中的过度估计问题, 度的前提下最大化 CHP 机组的收益,常用方法是
提高了 DRL 的稳定性。其原理图如图 8 所示。首 将目标函数和安全约束整合为奖励函数。因此,问
先,我们引入一个神经网络来估计当前状态和所采 题变成了多目标优化,本文在不违反约束的情况下
取的动作之间的 Q 值,输入是离散状态信息,输出 才会加入利润收益,否则利润为 0。本文设置的奖
是估计得到的状态-动作函数值,选择具有最高估计 励函数由五个子奖励组成,以实现利润最大化和满
http:∥www.china-simulation.com
第 xx 卷第 x 期 系统仿真学报© Vol. xx No. x
xxxx 年 xx 月 Journal of System Simulation xx. xxxx
g: n
nm 在 s 中是利普希茨连续的。d ( st ) 表
Ft 示未知的环境状态空间,选用高斯过程模型对其进
if R penalty 0
100
行估计,用 dˆ ( st ) 表示,高斯过程可用均值函数
Rprofit
0 if R penalty 0
d ( s) 和协方差函数 d2 ( s ) 来确定:
S S
2
if S
S d ( s) k ( s) d ( s) d ( s) k ( s) (16)
1, t 1, t
R S 式中:k 是确定 的参数,它决定了上式的置信度
1,t S 2
S S S
if 1,t
else (1 ) 。
0
对于任意状态 s * ,均值函数 d ( s) 和协方差函
1,t
R R 2 if R R
1,t
数 d ( s ) 的表达式分别为:
2
R R
R 1,Rt if 1,t (14)
2 R R
d ( s* ) k*T ( s* )( K noise
2
I ) 1 yn
0 els e (17)
( s ) k ( s , s ) k ( s )( K
2
d
* * * T
*
* 2
noise
1
I ) k* ( s )
*
m
t
m
2
if m m
式中:K noise I 为高斯噪声,yn [dˆ ( s1 ), dˆ (sn )] ,
max,t t max,t 2
Rm 0 m 2 if m 0
t
t k ( si , s j ) 为 高 斯 过 程 的 核 矩 阵 ,
0 else
k* ( s* ) [ k ( s1 , s* ), k ( sn , s* )] 。
H t H tolerance if H t >0.5
2
环境 控制器
正线性单元作为激活函数。 pt ht
dˆ ( st )
2.2.2 CBF 控制器的设计 at ,k
首先,假设系统的环境状态转换关系如下:
图 9 CBF 控制器设计
st 1 f ( st ) g ( st )at d ( st ) (15) Fig. 9 Design of CBF controller
http:∥www.china-simulation.com
第 xx 卷第 x 期 系统仿真学报© Vol. xx No. x
xxxx 年 xx 月 Journal of System Simulation xx. xxxx
,k 1 ( st ) at ) p d ( st )
状态限制在安全集 C 中。换言之,DRL 智能体应在 atCBF T
(21)
C 内进行策略探索,即 st C 。本研究中,下述表 k p d ( st ) q (1 )h( st )
T
达式被用来描述决策算法中的安全集合: i
s.t. alow ati ahigh
i
for i 1, ,k
sup
at A [ B(st 1 ) ( 1) B( st )] 0 (19) CBF-DRL 改进算法流程如下:
式中, A 表示智能体所有可以执行的动作的集合; CBF-DRL 改进算法
表示 CBF 对智能体动作安全约束的强度,在[0,1] (1)初始化 DRL 算法的策略 0DRL ,状态空间 S ,动
s.t. p f ( st ) p g ( st )(at ) p d ( st )
T T T 基于 greedy 策略产生 DRL 算法决策的动作
(20) atDRL
k p d ( st ) q (1 ) B( st )
T
,1 ;
CBF
i
s.t. alow ati ahigh
i
for i 1, ,k 通过 CBF 控制器产生控制动作 at ,1 ;
执行动作 at ,1 at ,1 atCBF
DRL
式中:t 表示迭代的时间步长,k 表示迭代次数,K ,1 ;
大常数, a
i
low 和a
i
high 分别是 CHP 机组出力的下限
将 st , at ,1 , rt , st 1 存入经验回放存储器 D 中;
和上限。
T
(4)计算本次迭代获得的奖励
t 1 t
r ;
本文 SRL 方法是基于 CBF 控制器给 DRL 算法
(5)更新 D ;
提供策略探索指导来设计的,如图 10 所示。在学 ( 6)从经验回放存储器 D 中随机采样 m 个样本
习过程中,CBF 控制器的相关数据同样存储为训练 s ,a t t ,1 , rt , st 1 ,计算目标值: Yt DDQN ;
样本,以进行学习过程中 CBF 安全控制策略的更新, (7)更新当前 Q 网络参数 :
从而对 DRL 算法的决策过程提供更有效的指导。 2
a CBF
t ,1 atCBF CBF
,k 1 ,并且产生新的控制动作 at ,k ;
at ,k atDRL
,k atCBF
,1 ,k 1 at ,k
atCBF CBF
http:∥www.china-simulation.com
第 xx 卷第 x 期 系统仿真学报© Vol. xx No. x
xxxx 年 xx 月 Journal of System Simulation xx. xxxx
3 评估器设计
图 12 联合仿真平台示意图
在本节中将设计区域供热系统的评估器对上 Fig. 12 Illustration of co-simulation platform
述优化算法的安全性和经济性进行评估。评估器的
输入是由优化算法确定的 CHP 机组的产热量与产 本文使用 OpenAI Gym 工具包构建了 DRL 训
电量,其他输入是消费者热需求和电价。优化算法 练环境,以创建用于算法训练和测试的环境框架。
限行为: 具包,可以使自定义的奖励函数整合到新环境中变
http:∥www.china-simulation.com
第 xx 卷第 x 期 系统仿真学报© Vol. xx No. x
xxxx 年 xx 月 Journal of System Simulation xx. xxxx
http:∥www.china-simulation.com
第 xx 卷第 x 期 系统仿真学报© Vol. xx No. x
xxxx 年 xx 月 Journal of System Simulation xx. xxxx
图 15-b 最小入口返回温度越限百分比图
Fig. 15-b Percentage of minimum inlet return
temperature violations chart
(3) 最大热媒质量流量越限
图 16 两种供热管网模型下典型日利润对比图
Fig. 16 Comparison of typical daily profits between two
district heating network models
表 2 两种供热管网模型下典型日利润对比
Table 2 Profit comparison for typical day in two district
heating network models
http:∥www.china-simulation.com
第 xx 卷第 x 期 系统仿真学报© Vol. xx No. x
xxxx 年 xx 月 Journal of System Simulation xx. xxxx
生更多的热量。电价在接下来的时间步长内逐渐增
根据图 17 和表 3 的累加利润分析可知,在两
加,DDQN 使用部分已产生的热量来满足消费者的
种供热管网模型下 DDQN 相比于 MINLP 利润分别
热需求,有效利用电价产生更多的电能。DDQN 算
增加 149.1%,56.2%。随着管网长度增加,状态空
法相比于 MINLP 在单日累加利润上收益更高,且
间迅速扩大,DRL 随机探索策略的难度增加,导致
通过 CBF 引导 DDQN 探索后经济性获得明显提升,
优化性能下降。通过加入 CBF 控制器过滤 DDQN
利润增加 1327.3 元。当管道长度增加到 L = 15 km
控制器的不安全动作并提供有效策略探索指导后,
时,随着供热管网长度的增加,导致可能储存的水
DDQN 算法在保证安全探索的同时获取最大化长
量增加,DRL 与环境交互的过程中存在的不确定因
期奖励,提高了 CHP 机组的经济性。由表 3 的数
素增加,其优化性能会受到一定影响。通过 CBF
据可知,在两种供热管网模型下,CBF-DDQN 相比
指导 DDQN 有效探索后,DDQN 算法可以有效利
于 MINLP 利润分别增加 244.3%和 189.2%,相比于
用管网热惯性,相比于 5km 管道利润增加 151.6 元。
DDQN 算法利润分别增加 38.2%和 85.1%。
综合来看,CBF-DDQN 调度优化策略在考虑供热管
道热惯性且保证安全性的同时,实现了 CHP 机组 5 结论
经济收益最大化的优化目标。
针对 CHP-DHN 优化调度的环境和模型不确定
供热管网 L = 5km 和 L = 15km 时 60 天累加利
性,本文提出了一种无模型的 SRL 优化调度方法,
润情况如图 17 和表 3 所示。
设计了 CHP-DHN 经济调度的 MDP 模型。通过仿
真和讨论可以得出以下结论:
1) CBF-DRL 方法可以在安全探索的同时加快智能
体的收敛速度,体现了调度策略的快速性。
2) CBF-DRL 方法可以有效避免策略探索过程中非
安全事件的发生,体现了调度策略的安全性。
3) CBF-DRL 方法可以利用管网热惯性提高 CHP 机
组的经济收益,体现了调度策略的经济性。
4) CBF-DRL 方法可以有效解决非凸非线性问题。
该方法不需要先验知识,尤其适合 CHP-DHN 这
种具有非线性、耦合性、时变性的复杂多变量对
象,能够兼顾系统的安全要求与经济性目标,具
有一定的工程实际应用价值。
参考文献:
[1] FRANCO A, BELLINA F. Methods for optimized design
and management of CHP systems for district heating
networks (DHN)[J]. Energy Conversion and Management,
图 17 两种供热管网模型下 60 天累加利润对比图 2018, 172: 21-31.
Fig. 17 Cumulative profit comparison for 60 days in two [2] REZAIE B, Rosen MA. District heating and cooling:
district heating network models
http:∥www.china-simulation.com
第 xx 卷第 x 期 系统仿真学报© Vol. xx No. x
xxxx 年 xx 月 Journal of System Simulation xx. xxxx
http:∥www.china-simulation.com