基于安全强化学习的热电联产机组经济调度策略研究王欣

系统仿真学报
Journal of System Simulation

ISSN 1004-731X,CN 11-3092/V
《系统仿真学报》网络首发论文
题目：基于安全强化学习的热电联产机组经济调度策略研究
作者：王欣，崔承刚，王想想，朱平
DOI： 10.16182/j.issn1004731x.joss.23-1472
收稿日期： 2023-12-04
网络首发日期： 2024-05-08
引用格式：王欣，崔承刚，王想想，朱平．基于安全强化学习的热电联产机组经济调度
策略研究[J/OL]．系统仿真学报.
https://doi.org/10.16182/j.issn1004731x.joss.23-1472
网络首发：在编辑部工作流程中，稿件从录用到出版要经历录用定稿、排版定稿、整期汇编定稿等阶
段。录用定稿指内容已经确定，且通过同行评议、主编终审同意刊用的稿件。排版定稿指录用定稿按照期
刊特定版式（包括网络呈现版式）排版后的稿件，可暂不确定出版年、卷、期和页码。整期汇编定稿指出
版年、卷、期、页码均已确定的印刷或数字出版的整期汇编稿件。录用定稿网络首发稿件内容必须符合《出
版管理条例》和《期刊出版管理规定》的有关规定；学术研究成果具有创新性、科学性和先进性，符合编
辑部对刊文的录用要求，不存在学术不端行为及其他侵权行为；稿件内容应基本符合国家有关书刊编辑、
出版的技术标准，正确使用和统一规范语言文字、符号、数字、外文字母、法定计量单位及地图标注等。
为确保录用定稿网络首发的严肃性，录用定稿一经发布，不得修改论文题目、作者、机构名称和学术内容，
只可基于编辑规范进行少量文字的修改。
出版确认：纸质期刊编辑部通过与《中国学术期刊（光盘版）》电子杂志社有限公司签约，在《中国
学术期刊（网络版）》出版传播平台上创办与纸质期刊内容一致的网络版，以单篇或整期出版形式，在印刷
出版之前刊发论文的录用定稿、排版定稿、整期汇编定稿。因为《中国学术期刊（网络版）》是国家新闻出
版广电总局批准的网络连续型出版物（ISSN 2096-4188，CN 11-6037/Z），所以签约期刊的网络版上网络首
发论文视为正式出版。
网络首发时间：2024-05-08 11:57:49
网络首发地址：https://link.cnki.net/urlid/11.3092.v.20240506.1932.005
第 xx 卷第 x 期系统仿真学报© Vol. xx No. x

xxxx 年 xx 月 Journal of System Simulation xx. xxxx
基于安全强化学习的热电联产机组经济调度策略研究
王欣，崔承刚*，王想想，朱平
(上海电力大学自动化工程学院，上海 200090）
摘要：针对深度强化学习（DRL）算法在热电联产（CHP）机组优化中缺乏安全性和稳定性保证的
问题，提出了一种基于安全强化学习（SRL）的调度优化方法。该方法将 DRL 算法与控制障碍函
数（CBF）相结合，探索安全稳定的优化策略。首先，在 Dymola 平台以 CHP 机组为热源建立了区
域供热系统模型。其次，设计了 CHP 机组经济调度的马尔科夫决策过程（MDP）模型，并通过 CBF
指导 DRL 安全探索。最后，通过在供热系统模型上对比 CBF-DRL 方法、标准 DRL 方法和非线性
数学优化器的仿真结果，得出以下结论：CBF-DRL 方法在复杂且非线性的区域供热系统中，不仅
能够提升 DRL 算法的收敛速度，还能够有效利用供热管道的热惯性提高 CHP 机组的经济效益，并
在安全性方面表现出显著的优势。
关键词：热电联产；区域供热系统；安全强化学习；控制障碍函数；经济调度；协同仿真
中图分类号：TP391.9 文献标志码：A
DOI: 10.16182/j.issn1004731x.joss.23-1472
Research on Economic Dispatching Strategy of CHP Units Based on Safe Reinforcement

Learning
Wang Xin，Cui Chenggang*, Wang Xiangxiang, Zhu Ping
(College of Automation Engineering, Shanghai University of Electric Power, Shanghai 200090, China)
Abstract: In addressing the challenge of the Deep Reinforcement Learning (DRL) algorithm in the
optimization of Combined Heat and Power (CHP) units, lacking safety and stability guarantees, a
scheduling optimization method based on Safe Reinforcement Learning (SRL) is proposed. This method
integrates the DRL algorithm with Control Barrier Functions (CBF) to explore secure and stable
optimization strategies. Utilizing the Dymola platform, a district heating system model was constructed
with the CHP unit as the heat source. Subsequently, a Markov Decision Process (MDP) model for the
economic dispatch of CHP units is designed, incorporating CBF to guide safe exploration in DRL.
Comparative simulations on the heating system model reveal that the CBF-DRL method, in complex and
nonlinear district heating systems, not only accelerates the convergence of DRL algorithms but also
efficiently utilizes the thermal inertia of heating pipelines to enhance the economic performance of CHP
units. Notably, it exhibits significant advantages in terms of safety.
Keywords: combined heat and power; district heating system; safe reinforcement learning; control barrier
function; economic dispatch; co-simulation
收稿日期：2023-12-04 修回日期：2024-02-22
基金项目：上海市 2021 年度“科技创新行动计划”科技支撑碳达峰碳中和专项（21DZ1207302）；国家自然科学基金青年科学基金项目（51607111）
第一作者：王欣（1999—），女，硕士研究生，研究方向为能源系统控制与优化调度，E-mail：18795358018@163.com
通讯作者：崔承刚（1981—），男，博士，副教授，研究方向为分布式能源系统预测与优化调度，E-mail：cgcui@Shiep.edu.cn
http:∥www.china-simulation.com
0 引言训练才能收敛到更好的策略。在训练过程中，
常常会出现不安全的探索，可能导致系统的安
热电联产（combined heat and power，CHP）是
全性无法得到保障。
一种多联产能源系统，将供热与供电结合在一起，
2) 在庞大的状态空间中，智能体通过随机试错获
以实现能源高效利用 [1] 。区域供热网络（district
取奖励的概率非常低。仅依赖 DRL 来探索策
heating network，DHN）是一种集中供热系统，通
略可能导致 DRL 网络难以收敛。
过将能量传输到最终用户的温度流体分配能源[2]。
安全强化学习（safe reinforcement learning，SRL）
将 CHP 系统与区域供热网络相结合（CHP-DHN）
旨在满足安全约束的前提下，通过最大化期望回报
的概念旨在充分发挥两种技术的优势，通过自然协
值来找到最优策略。控制障碍函数（control barrier
调降低总生产成本[3]并改善环境影响[4]。目前针对
function，CBF）是一种有模型的方法，通过构建一
CHP-DHN 优化调度方法通常依赖于人工经验。然
个安全集来确保系统的安全性。在基于学习的方法
而，在 DHN 涉及复杂的热源或管网结构时，这类
中，CBF 常被用作每个训练步骤的动作过滤器，以
方法的有效性受到挑战[5]。
引导 DRL 的安全探索[12]。Cheng 及其团队[13]提出
在考虑热网时间延迟的情况下，CHP-DHN 调
了一种混合控制策略，将基于模型的控制器与基于
度优化问题演变成一种典型的混合整数非线性规
学习的控制器结合，以保障系统的安全性。Marvi
划问题（ mixed integer nonlinear programming
和 Kiumarsi[14]将 CBF 与 RL 算法相融合，得到一种
problem，MINLP）。然而，目前尚未发现一种具
前瞻性的安全策略，以实现控制系统稳定性和安全
备鲁棒性和可预测性能的算法来求解这类问题。现
性之间的权衡。Cohen 等人[15]将 CBF 引入 RL 中，
有方法通过引入一些先进的控制算法，如模型预测
缓解了智能体无限制探索带来的安全隐患。
控制算法[6]，模糊直接矩阵控制方法[7]等，以增强
针对深度强化学习算法在 CHP 机组优化问题
系统的稳定性和收敛性。然而，以上控制方法都依
中缺乏安全性和稳定性保证的问题，本文提出了一
赖于精确的区域供热管网动态模型，这使得在实际
种基于 SRL 的调度优化方法。首先，本文在 Dymola
应用中面临一些挑战，特别是应对不同实际场景时
平台以 CHP 机组为热源的区域供热系统为例，基
可能遇到困难。 [16] [17]
于 IBPSA 库、Disheatlib 库以及 Modelica 标准
近年来，由于不需要对系统进行精确的建模， [18]
模型库 Modelica Standard Library 建立了区域供
强化学习（reinforcement learning，RL）方法已成功
热系统模型，并在 Dymola 仿真平台上实现模型仿
应用于天然气管网优化调度 [8]，能源转换控制[9]与
真。其次，本文设计了基于 CBF 的 CHP-DHN 经济
集中供热网络的恒温控制[10]中。这些研究案例充分
调度的马尔科夫决策过程（markov decision process，
表明，RL 算法在处理非线性系统的复杂动态和高
MDP）模型，并通过 CBF 指导 DRL 安全探索。该
维问题方面具备巨大的潜力。然而，由于 RL 算法
模型选取供热系统温度、质量流量、热量需求等作
在学习过程中采取试错方法，在状态空间比较大时，
为模型状态，CHP 机组产热量和产电量作为模型动
用这一方法求解非常困难，且容易出现不安全的探
作，并以提高 CHP 机组经济性收益为目标设计奖
索，这是应用 RL 算法的一大挑战。
励函数。再次，本文基于 Modelica / Dymola
深度强化学习(deep reinforcement learning，
CHP-DHN 模型，开发了 Modelica CHP-DHN Gym
DRL)兼具深度神经网络的函数逼近能力和 RL 的决
( MC- DG) 工具包，用于 Modelica 模型与
策能力，以数据驱动方式提供实时灵活的控制决策
OpenAI Gym 工具包协同仿真。最后，通过仿真验
[11]
。然而，使用 DRL 时需要注意以下两个方面：
证本文所提策略的有效性。
1) DRL 方法的初始策略并非最优，需要经过大量
1 基于 Modelica 的 CHP-DHN 建模 1) 水力学模型

为了解耦能量方程和质量方程，压降是质量流
1.1 CHP-DHN拓扑结构
量的函数：
区域供热系统由热源、供热管网和热用户组成。 m  k p P (2)
本文以 CHP 机组作为热源，根据生产计划，将产式中： k p 为常数； P 为压降。
生的电能和热能分别出售给电网和热用户。热源通
2) 热损失方程
过升高一次侧管网的总回水温度或增加一次侧管
由于一次管网和二次管网中热媒的动态特性
网的供水流量，将热能输入区域供热系统。加热后
原理相同，仅是由于热量输配过程发生滞后和延迟，
的介质水通过一次侧供水管网输送到换热站，换热
受周围环境的影响较小。本文为简化管道的热动态
站的核心设备是换热器。一次侧管网的供水经过换
数学模型，以方便从本质上找到主要影响因子，仅
热器，将二次侧回水加热，使二次侧供水温度升高，
处理单管道模型，假设轴向扩散可以忽略不计，则
然后将热量传递给热用户。随后，二次侧供水温度
流体在入口和出口之间的温度变化仅取决于其初
下降，通过二次侧回水管网返回换热器，吸收热量，
始温度和在管道中的停留时间。
完成二次侧介质水的循环。一次侧供水经过散热后，  tout  tin 
 out   b   in   b  exp    (3)
通过一次侧回水管网返回热源，再次吸收热量，变  RC 
成高温的一次侧供水，完成一次侧介质水的循环过式中： b 为环境温度； in 和  out 分别为入口温度和
程。图 1 展示了以 CHP 机组为热源的区域供热系出口温度；tout  tin 为时间延迟；R 为单位热阻；C
统拓扑简图。为单位热容量。
3) 热延迟方程
一次侧供水二次侧供水
传输延迟是使用没有源或汇项的一维扩散方
一次网
程计算得到的：
(4)
换热器
z  x, t  z  x, t 
 v (t ) 0
CHP 二次网
热用户 t x
式中： z ( x , t ) 是作为流体属性 z 的时间函数的空间
一次侧回水二次侧回水
分布。 x 为空间距离； t 为时间。
图 1 CHP-DHN 拓扑结构简图管网的时间延迟是整数决策变量。在 Modelica
Fig. 1 Schematic diagram of CHP-DHN topology
环境中，供热管道传热延迟的一维扩散方程的解将
1.2 CHP-DHN数学模型使用内置运算符 spatialDistribution（空间分布算子）
进行近似。
1．热源模型
3．热用户模型
热源产生的热量和温度、流量关系式为：
ht  cwmt ( in, 热用户实际得到的热量为：
t   out,t ), t  T
S R
(1)
Htdelivered  cwmt ( out,
S
t   in,t ), t  T
R
(5)
式中： in,t 为供应管道入口温度； out,t 为回水管道
S R
式中： 为供水管道出口温度；
S R
出口温度； c w 为水的比热容； mt 为质量流量。 out,t in,t 为回水管道
入口温度。
2．管道模型
本文基于时滞热损和活塞流模型建立供热管 1.3 CHP-DHN约束条件
网模型[19]。该模型考虑了沿管道长度的传输延迟和
1. CHP 机组运行约束
管道壁的热惯性。
CHP 机组运行的出力可行域[20,21]表达式为：
min  Pmin   H t ,    H t   P  本文的优化目标是优先满足用户热需求，则：


Pt  Pmax   H  (6) H demand,t  H delivered,t  H tolerance (9)
0  H t  H max 

式中： H demand,t 为热需求； H delivered,t 为实际传输到
式中：H t ，Pt 分别为产热量和产电量；Pmin ，Pmax
用户的热量； H tolerance 为热需求误差的限制值。
分别为最小和最大产电量； H max 为最大产热量；
 ,  ,  ,  分别为参数值。 1.4 CHP-DHN 模型建立
图 2 定义了 CHP 机组的热电可行区域。本文在 Dymola 平台以 CHP 机组为热源的区域
P / MW 供热系统为例，基于 IBPSA、Disheatlib 以及 Mode
Pmax   H lica 标准模型库 Modelica Standard Library 建立了
D  0, Pmax 
区域供热系统模型，并在 Dymola 仿真平台上实现
C Hmax ,Pc 
模型仿真。系统模型示意图如图 3 所示。
Pmin   H
A  0, Pmin 
β+αH
B  H B ,PB 
β
0 H / MW
图 2 CHP 机组的热电可行域
Fig. 2 Thermal-Electric feasible region of CHP units
2. 供热管道温度约束
热源的供应温度应高于阈值，以确保负荷服务
质量，且不超过上限，以防止蒸汽形成。回流温度
也应保持在其限值范围内：
 S   kS,t   S 

 (7)
 R   kR,t   R 
t  T , k  1, 2, , NB 

式中： k ,t ,  k ,t 为 t 时刻供应管道和回水管道节点 k
S R
处的温度；  S ,  S 分别为供应管道水温的上下限；
 R ,  分别为回水管道水温的上下限； N B 为管道
R
图 3 基于 Modelica /Dymola 的区域供热系统仿真图
设置的温度传感器个数。 Fig. 3 Simulation diagram of district heating system based on
Modelica/Dymola
3. 热媒质量流量约束
供水和回水管道中的质量流量不应该超过最热源由 baseSupply 提供，经管道 pipe 流向
大限制值。否则，可能发生管道破裂造成安全事故。 substation 进行换热，并将热量提供给热用户
由于在本文建立的管道模型中，供水和回水管道的 demandDHW/SH。供回水管道的温度由温度传感器
质量流量相等，则： senTem 测量，热媒质量流量由流量传感器
0  mt  mmax,t , t  T (8) senH_flow 测量。
式中： mmax,t 为允许通过管道的质量流量最大值。
4. 热量需求平衡约束 1.5 基于 Modelica 建模的管道热惯性验证
为了研究和测试提出的 CHP 机组调度模式，图 5 为供应管道入口和出口温度变化和焓流量

需要建立该系统的详细动态模型，以防止高估其灵变化示意图，源侧温度 1 小时后逐渐升高，在第 6
活性。在针对 DHN 进行动态仿真的研究中，两种小时的时候升到 90℃，其中温度损失为 5℃，热延
最广泛使用的基于因果关系（Simulink 和 TRNSYS）迟时间为 75min。焓流量损失为 25.75kW，延迟时
和基于非因果关系（IDAICE 和 Modelica）的建模间和温度一致。由此可见，基于 Dymola 的管网仿
[22]
工具均被证明能够模拟管道温度响应，即适用于真模型具有热惯性，可以用于本文的深度强化学习
DHN 的模拟。互动环境。
如图 4 为在 Dymola 平台中搭建的管道热惯性
2 基于 SRL 的 CHP-DHN 调度优化
验证模型，管道长度设为 2km，直径选择 DN50 规
策略设计
格，源侧初始温度为 10℃，压力恒为 5bar。
针对 CHP-DHN 系统的非线性、耦合性与时变
特性，本文提出了一种基于安全强化学习（SRL）
的 CHP-DHN 调度优化方法。由于 DRL 智能体专
注于最大化长期奖励, 它很可能在学习过程中探索
不安全的行为。CBF 具有强约束性，通过将 DRL
算法与 CBF 集成的方式，可以保证智能体在探索过
程中的实时安全，并且提高智能体的探索效率。具
体来说，在训练过程中从 CHP-DHN 仿真环境中获
得状态和奖励值，DRL 根据接收到的状态信息提出
图 4 管道热惯性验证模型
Fig. 4 Pipeline thermal inertia verification model 动作建议，通过求解 CBF-QP 对当前动作进行“过
滤”后输出，以保证安全性。具体框架如图 6 所示：
状态环境
{s,a,r,s'}
, ,
经验池
热需求/MW
动作
、ℎ
CBF-DRL优化器
电价/￥
DRL
CBF
约束
时间/h
更新网络参数
图 6 基于 CBF-DRL 算法的 CHP-DHN 调度优化结构图

Fig. 6 Structure diagram of CHP-DHN scheduling
optimization based on CBF-DRL algorithm
图 5 (a)供应管道入口和出口的温度变化示意图 (b)供应管
道入口和出口的焓流量变化示意图 2.1 目标函数设计
Fig. 5 (a)Diagram of temperature flow changes at inlet and
outlet of supply pipeline. 本文旨在保证供热质量的前提下，通过优化
(b)Diagram of enthalpy flow changes at inlet and outlet of CHP 机组的运行，实现其自身收益的最大化，通过
最大化期望收益目标函数 J ( ) 来构造：
supply pipeline
J ( )  max E[ r ( s, a )] 值的动作作为输出。然后，与环境交互执行每个动
aA
s.t. L f B( s)  Lg B( s)a   ( B( s))  0 (10) 作并观察状态的转移，将状态转移向量 s,a,r,s' 储
s.t. alow  a  ahigh 存到经验池中。最后，从经验池中随机采样一批数

据更新当前神经网络的参数，同时对目标网络进行
CHP 机组的运行收益是最大化机组的产热、产
软更新。
电成本以及向电网出售电力所获得的收益之和。为
了简化计算，本文未将热量收益计入利润中，因此 Q( s,a,  ) +
r
权重更新损失函数
+
每个时间步长的利润可能出现负值。由于采用的是计算损失值
数据流
 maxQ( s',a,  )
小时电价，而本文的时间步长选择 15min，则每个 Q( s,a, )
步长的机组利润如下： s 当前网络 argmaxQ( s',a ) 目标网络

a
c p  a 0ht  a1 pt 环境
Ft  t t , t T (11) a
4
式中：a 0 和 a 1 分别为产热和产电成本系数；ct 为波 s,s'
s'
动电价；ht 和 pt 分别为调度策略给出的产热量和产
{s,a,r,s'} 经验池
电量。
图 8 DDQN 原理图
2.2 基于CBF的DRL优化算法设计 Fig. 8 Diagram of DDQN
本文的策略迭代过程如图 7 所示。该算法从策
CHP-DHN 经济调度的 MDP 模型设计如下：
略空间中的一个不安全初始策略  0 开始，由于 DRL
1. 动作空间 A
智能体的随机探索过程缺乏安全性保证，将导致一
动作空间变量设置为 CHP 机组的产热量 ht 和
个次优策略产生，最后由二次规划导出的 CBF 控制
产电量 pt 。由于 DDQN 是一种离散的 RL 算法，因
器将 DRL 策略引导到一个安全且最优的策略空间。
此，动作空间 A   a1 , a2 , , an  , ai  hi , pi  。
2. 状态空间 S
策略空间
本文将状态空间分为内部部分和外部部分来
次优策略
表征。内部状态空间由供回水管道每个节点 k 处的
温度  k ,t ,  k ,t 和管道中热媒的质量流量 mt 组成，外
S R
最优策略
CBF-QP
部状态空间包括室外温度 t0 、热量需求 H demand,t 与
初始策略  0 电价 ct ，这些外部环境信息用于指导智能体探索策
略。即系统状态空间为：
图 7 策略迭代过程图
st   kS,t , kR,t , mt , t0 , ct , H demand,t  (12)
Fig. 7 Strategy Iteration Process Diagram
3. 奖励函数 R
2.2.1 DRL 优化器的设计
本文的优化目标是在满足用户热需求、保持热
本文使用 DDQN 算法来训练 DRL 智能体。媒体质量流量以及维持可行的供热管道出入口温
DDQN 算法通过解决 DQN 算法中的过度估计问题，度的前提下最大化 CHP 机组的收益，常用方法是
提高了 DRL 的稳定性。其原理图如图 8 所示。首将目标函数和安全约束整合为奖励函数。因此，问
先，我们引入一个神经网络来估计当前状态和所采题变成了多目标优化，本文在不违反约束的情况下
取的动作之间的 Q 值，输入是离散状态信息，输出才会加入利润收益，否则利润为 0。本文设置的奖
是估计得到的状态-动作函数值，选择具有最高估计励函数由五个子奖励组成，以实现利润最大化和满
其中， st  为系统在时刻 t 的状态， at 

n m
足约束条件之间的权衡。具体的奖励函数设计如下：为
R  Rprofit  R S  R R  Rm  Rdemand (13) 时刻 t 的控制作用。向量场 f :  n， n
g: n
 nm 在 s 中是利普希茨连续的。d ( st ) 表
 Ft  示未知的环境状态空间，选用高斯过程模型对其进
 if R penalty  0 
 100
行估计，用 dˆ ( st ) 表示，高斯过程可用均值函数
Rprofit


 0 if R penalty  0 
 d ( s) 和协方差函数  d2 ( s ) 来确定：

  S   S

2
if  S
  S  d ( s)  k   ( s)  d ( s)  d ( s)  k   ( s) (16)
 1, t 1, t


R S    式中：k 是确定  的参数，它决定了上式的置信度
 
    1,t S 2
  
S S S
if 1,t 
 else  (1   ) 。
 0

对于任意状态 s * ，均值函数 d ( s) 和协方差函

1,t 
   R   R 2 if  R   R
 1,t


 数  d ( s ) 的表达式分别为：
2
R R  
  R   1,Rt  if  1,t    (14)
2 R R
  d ( s* )  k*T ( s* )( K   noise
2
I ) 1 yn 

 0 els e   (17)
  ( s )  k ( s , s )  k ( s )( K  
2
d
* * * T
*
* 2
noise
1
I ) k* ( s ) 
*
  m
t
 m
2
if m  m 
  式中：K   noise I 为高斯噪声，yn  [dˆ ( s1 ), dˆ (sn )] ，
max,t t max,t 2

Rm     0  m 2 if m  0 

t

t k ( si , s j ) 为高斯过程的核矩阵，

0 else 
 k* ( s* )  [ k ( s1 , s* ), k ( sn , s* )] 。
   H t  H tolerance  if H t >0.5
 2
Rdemand    基于 CBF 约束的二次规划（Quadratic Program，


0 else 
 QP）可以将 CBF 定义的每个条件作为约束添加到

二次规划中，通过求解 QP 得到了基于 CBF 的最小
式中： Rprofit 为 CHP 机组的运行收益奖励。供热管
范数控制器，从而解决优化目标和安全性约束存在
道出入口温度和热媒质量流量超过一定阈值会影
冲突时的矛盾关系。
响设备性能，严重时会导致运行故障，R S ，R R ，
Rm 分别为超出供热管道出入口温度区间和流量区 a* ( s )  arg min a T H ( s )a  p 2
m 1
a , 
(18)
间的惩罚项。CHP-DHN 的首要任务是满足用户热 s.t. L f B( s)  Lg B( s)a   ( B( s ))  0
需求，Ht 为消费者的热量需求和供应热量的偏差，式中： H ( s) 是任意正定矩阵，  是松弛变量，可
Rdemand 为需求不达标或过度生产的惩罚。若没有违以选择它来确保当 p  0 时 QP 的可解性。
反这些约束，则不给予智能体惩罚。 CBF 控制器的输入输出设计如图 9 所示：
4. 神经网络设计
状态 st ,k
本文的神经网络包含输入层、输出层和四个隐
H demand,t t0 ct  kR,t  kS,t mt
藏层。输入层节点数对应状态数量，输出层节点数
对应离散动作个数。每个隐藏层都有 256 个神经元，
DRL
并且除了输出层外，所有隐藏层都采用了 ReLU 修动作 atDRL
,k
CBF
atCBF
,k
环境控制器
正线性单元作为激活函数。 pt ht
dˆ ( st )
2.2.2 CBF 控制器的设计 at ,k
首先，假设系统的环境状态转换关系如下：
图 9 CBF 控制器设计
st 1  f ( st )  g ( st )at  d ( st ) (15) Fig. 9 Design of CBF controller
1. 控制器输入图 10 基于 CBF 的 DRL 策略探索指导

Fig. 10 Exploration guidance in DRL based on CBF
CBF 控制器的输入由状态约束、DRL 控制器的
输出动作和未知状态估计值组成。由图 10 可知，在第 k 次迭代时，DRL 算法通
2. 控制器输出过a
CBF
t ,1  atCBF CBF
,k 1 指导其有效探索，并通过 at ,k 进行
CBF 控制器输出为经安全约束后的 CHP 机组安全约束。此时，重新构建二次规划对 CBF 控制器

CBF
的产电量和产热量。的安全约束动作 at ,k 求解：
3. QP 实现 (at ,  )  arg min at 2
 K 
为确保学习过程的绝对安全，必须始终将环境 s.t. p f ( st )  p g ( st )(atDRL
T
,k ( st )  at ,1 ( st )
T CBF
,k 1 ( st )  at )  p d ( st ) 
状态限制在安全集 C 中。换言之，DRL 智能体应在  atCBF T
(21)
C 内进行策略探索，即 st  C 。本研究中，下述表 k p  d ( st )  q  (1   )h( st )  
T
达式被用来描述决策算法中的安全集合： i
s.t. alow  ati  ahigh
i
for i  1, ,k
sup
at A [ B(st 1 )  (  1) B( st )]  0 (19) CBF-DRL 改进算法流程如下：
式中， A 表示智能体所有可以执行的动作的集合； CBF-DRL 改进算法
 表示 CBF 对智能体动作安全约束的强度，在[0,1] （1）初始化 DRL 算法的策略  0DRL ，状态空间 S ，动
范围内取值； B( s ) 在离线训练阶段不断更新。作空间 A ；

（2）清空经验回放存储器 D ；
本文为方便使用二次规划进行求解，将 CBF （3）for t=1: T, k=1;
转换为 B( s)  pT s  q,( p 
, q  ) 形式，构建 n
获取当前状态量：
二次规划对满足上式的 CHP 机组动作 at 求解： st   kS,t , kR,t , mt , t0 , ct , H demand,t  , t  T , k  1, 2, , NB
(at ,  )  arg min at 2
 K  输入到当前 Q 网络中，输出所有动作对应的 Q 值；
s.t. p f ( st )  p g ( st )(at )  p d ( st ) 
T T T 基于   greedy 策略产生 DRL 算法决策的动作
(20) atDRL
k p  d ( st )  q  (1   ) B( st )  
T
,1 ；
CBF
i
s.t. alow  ati  ahigh
i
for i  1, ,k 通过 CBF 控制器产生控制动作 at ,1 ；
执行动作 at ,1  at ,1  atCBF
DRL
式中：t 表示迭代的时间步长，k 表示迭代次数，K ,1 ；
是惩罚系数，它是一个用于惩罚不安全行为动作的获得新状态 st 1 和立即奖励 rt ,1 ；
大常数， a
i
low 和a
i
high 分别是 CHP 机组出力的下限  
将 st , at ,1 , rt , st 1 存入经验回放存储器 D 中；
和上限。

T
（4）计算本次迭代获得的奖励
t 1 t
r ；
本文 SRL 方法是基于 CBF 控制器给 DRL 算法
（5）更新 D ；
提供策略探索指导来设计的，如图 10 所示。在学（ 6）从经验回放存储器 D 中随机采样 m 个样本
习过程中，CBF 控制器的相关数据同样存储为训练 s ,a t t ,1 , rt , st 1  ，计算目标值： Yt DDQN ；
样本，以进行学习过程中 CBF 安全控制策略的更新，（7）更新当前 Q 网络参数  ：
从而对 DRL 算法的决策过程提供更有效的指导。 2
 Yt DDQN  Q  s, a;   ；

1 m
L
m
SRL优化器
（8）每 C 步更新目标 Q 网络参数    ；

DRL
atDRL
,k
（9）for k=2:M;
st ,k CBF DRL
环境控制器 DRL 算法决策第 k 次的动作 at ,k ；
CBF控制器 CBF
a
at ,k （之前时刻）
t ,k
CBF 控制器基于 A 中已获得的样本数据得到：
atCBF
,1  atCBF
,k 1
a CBF
t ,1   atCBF CBF
,k 1 ，并且产生新的控制动作 at ,k ；
at ,k  atDRL
,k  atCBF
,1  ,k 1  at ,k
atCBF CBF
重复 t=1:T 内的步骤，此时元（FMU）模块，并在 Python 环境中进行加载和

at ,k  atDRL  atCBF
,1   atCBF
,k 1  at ,k ；
CBF
,k
协同仿真。整体平台如图 12 所示。
重复步骤（4）~（8）；
（10）满足终止条件，迭代结束。 Agent OpenAI Gym MC-DG PyFMI FMU
3 评估器设计
图 12 联合仿真平台示意图
在本节中将设计区域供热系统的评估器对上 Fig. 12 Illustration of co-simulation platform
述优化算法的安全性和经济性进行评估。评估器的
输入是由优化算法确定的 CHP 机组的产热量与产本文使用 OpenAI Gym 工具包构建了 DRL 训
电量，其他输入是消费者热需求和电价。优化算法练环境，以创建用于算法训练和测试的环境框架。
的经济性和安全性是通过评估器的输出利润和越为了在 Modelica 模型和 OpenAI Gym 工具包之间实
限比例来衡量的。本文具体从以下五个方面评估越现协同仿真，本文还在 Python 中开发了 MC-DG 工
限行为：具包，可以使自定义的奖励函数整合到新环境中变
1) 相对于消费者热需求的未交付热量；从而有助于更灵活地开发 DRL 算法。

得更加便捷，
2) 供水管道入口温度高于上限； 4.2 仿真参数设置

3) 供水管道入口温度低于下限；
即便在只有一个生产者和一个消费者的简单
4) 回水管道入口温度低于下限；
电网中，CHP-DHN 的经济调度模型也具备高度的
5) 热媒质量流量高于上限。
复杂性。消费者数量的增加导致 DHN 模型复杂性
本文的整体优化框架如图 11 所示：
的增加和 MINLP 数值稳定性的降低。因此，本文
优化部分优化器选取的研究对象为由一个 CHP 机组和一个热用户
CBF-DRL
内部状态动作组成的区域供热系统模型，其中 CHP 机组装机容
DRL
供水管道温度： ,
回水管道温度： ,
MINLP
产电量：
产热量：ℎ
量为 50MW，热用户由多个用户近似。他们通过供
热媒质量流量：
水和回水管道直接连接。表 1 为 CHP 机组作为热
评估部分动作
产电量：源的供热系统部分设备参数。
输出产热量：ℎ
评估器外部状态
利润
室外温度：
越限比例
热需求： ,
表 1 供热系统参数
电价： Table 1 Parameters of the heating system
图 11 CHP-DHN 调度优化框架参数数值
Fig. 11 Framework for CHP-DHN scheduling optimization
[ht，pt]/MW (0,10),(10,5),(70,35),(0,50)
/e·h-1
4 仿真验证与分析 a0 58.9082
a1 /e·h-1 274.8996
4.1 搭建仿真验证平台 τs min/℃ 70
τs max/℃ 110
鉴于环境和优化算法分别采用 Modelica 语言
mmax /m·s-1 3
和 Python 语言编写，本研究构建了 CHP-DHN 调度
τR min/℃ 45
优化联合仿真平台。该平台以 DRL 为基础，解决 L/m 5000, 15000
了 Modelica 模型中的优化和控制任务。同时，平台 d/m 0.5958
还采用了功能模型接口（FMI 2.0）标准，将基于
Modelica 语言编写的模型打包并封装成功能模型单 CHP 机组的产热量范围为 0MW~70MW，本文
将产热量的离散步长设为 5，离散为 14 个值：[5, 图 13 典型日的热需求曲线（上）和实时电价曲线（下）

Fig. 13 Typical daily heat demand curve (above) and
10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70]，根据 real-time electricity price curve (below)
表 1 中给出的图 2 运行区域限制和算法动作的离散
1) 性能分析
要求，本文的动作空间为包含 38 个元素的产热量
图 14 通过将 CBF-DDQN 算法与标准 DDQN
和产电量的对应组合。
算法在 5000 个周期中的平均奖励进行比较，对算
4.3 仿真结果分析法的性能进行了评价。
本文的电价数据从 ENTSOE 网站下载，热需求
数据由 Ruhnau 等根据德国能源和水工业协会定义
的德国燃气标准负荷剖面方法估算。这两个数据集
都包含荷兰 5 年期间的每 15min 数值，选用优化间
隔为 24 小时。本文将五年的数据分为训练数据集
和测试数据集。训练-测试比率设置为 0.9，以利用
更多的数据训练。强化学习的状态空间大小为
1051200，训练周期为 5000。MINLP 模型由基于原图 14 平均奖励对比图
始对偶内点法的开源求解器 IPOPT 求解。一天的 Fig. 14 Comparison of average rewards
CHP-DHN 经济调度模型分 10 次迭代求解，迭代长

由图 14 可知训练周期为 4000 时，DDQN 接近
度为 6 分钟。选择这些值是为了加强优化过程的收
收敛，与 CBF-DDQN 算法相比，只靠 DDQN 探索
敛保证，并消除由于优化间隔不足而导致的不稳定
策略产生的奖励值较低，且算法收敛速度较慢。通
或不收敛[23]。两种调度策略均以 15 分钟为一个时
过 CBF 引导 DDQN 进行策略探索时，在第 2500 周
间步长，24 小时为一个训练周期。为验证 CBF-DRL
期附近算法收敛，此时的模型是训练充分且稳定的。
算法的有效性，本文将其与 DRL 方法和非线性数
2) 安全性分析
学优化器在 5km，15km 两种供热模型上进行比较
本文从五方面评估了 CBF-DDQN、DDQN 和
分析。
MINLP 模型的安全性：向用户输出的热量不足、最
图 13 分别为典型日的热需求和实时电价曲线。
大入口供应温度、最小入口供应温度、最小入口返
回温度和最大热媒质量流量。图 15 分别从最大入
口供应温度、最小入口返回温度和最大热媒质量流
量三种情况评估了三种优化算法的越限情况。未交
付热量和最小入口供应温度均无越限情况发生。
(1) 最大入口供应温度越限
图 15-a 最大入口供应温度越限百分比图图 15-c 最大热媒质量流量越限百分比图

Fig. 15-a Percentage of maximum inlet supply Fig. 15-c Percentage of maximum heat carrier mass flow
temperature violations chart violations chart
(2) 最小入口返回温度越限分析图 15 可知，DDQN 算法在策略探索的过

程中会发生温度和流量超过阈值的情况，MINLP
相比于 DDQN 能有效避免这种非安全事件的发生。
由仿真可知，通过引入 CBF 对 DDQN 的决策动作
进行安全约束，有效避免了非安全事件的发生，
CHP-DHN 调度模型的安全性得到了保证。
3) 经济性分析
供热管网 L = 5km 和 L = 15km 时典型日利润情
况如图 16 和表 2 所示。
图 15-b 最小入口返回温度越限百分比图
Fig. 15-b Percentage of minimum inlet return
temperature violations chart
(3) 最大热媒质量流量越限
图 16 两种供热管网模型下典型日利润对比图
Fig. 16 Comparison of typical daily profits between two
district heating network models
表 2 两种供热管网模型下典型日利润对比
Table 2 Profit comparison for typical day in two district
heating network models
典型日利润(￥) MINLP DDQN CBF-DDQN 表 3 两种供热管网模型下累加利润对比

5km 4310.2 5000.9 5637.5 Table 3 Cumulative profit comparison in two district
15km 4435.1 4853.7 5789.1 heating network models
累加利润(￥) MINLP DDQN CBF-DDQN
根据图 16 和表 2 的单日利润分析可知，在一 5km 1204.4 3000.5 4146.8
天中的前 6 个小时，电价较低，两种优化算法都产 15km 1603.1 2504.8 4636.7
生更多的热量。电价在接下来的时间步长内逐渐增
根据图 17 和表 3 的累加利润分析可知，在两
加，DDQN 使用部分已产生的热量来满足消费者的
种供热管网模型下 DDQN 相比于 MINLP 利润分别
热需求，有效利用电价产生更多的电能。DDQN 算
增加 149.1%，56.2%。随着管网长度增加，状态空
法相比于 MINLP 在单日累加利润上收益更高，且
间迅速扩大，DRL 随机探索策略的难度增加，导致
通过 CBF 引导 DDQN 探索后经济性获得明显提升，
优化性能下降。通过加入 CBF 控制器过滤 DDQN
利润增加 1327.3 元。当管道长度增加到 L = 15 km
控制器的不安全动作并提供有效策略探索指导后，
时，随着供热管网长度的增加，导致可能储存的水
DDQN 算法在保证安全探索的同时获取最大化长
量增加，DRL 与环境交互的过程中存在的不确定因
期奖励，提高了 CHP 机组的经济性。由表 3 的数
素增加，其优化性能会受到一定影响。通过 CBF
据可知，在两种供热管网模型下，CBF-DDQN 相比
指导 DDQN 有效探索后，DDQN 算法可以有效利
于 MINLP 利润分别增加 244.3%和 189.2%，相比于
用管网热惯性，相比于 5km 管道利润增加 151.6 元。
DDQN 算法利润分别增加 38.2%和 85.1%。
综合来看，CBF-DDQN 调度优化策略在考虑供热管
道热惯性且保证安全性的同时，实现了 CHP 机组 5 结论
经济收益最大化的优化目标。
针对 CHP-DHN 优化调度的环境和模型不确定
供热管网 L = 5km 和 L = 15km 时 60 天累加利
性，本文提出了一种无模型的 SRL 优化调度方法，
润情况如图 17 和表 3 所示。
设计了 CHP-DHN 经济调度的 MDP 模型。通过仿
真和讨论可以得出以下结论：
1) CBF-DRL 方法可以在安全探索的同时加快智能
体的收敛速度，体现了调度策略的快速性。
2) CBF-DRL 方法可以有效避免策略探索过程中非
安全事件的发生，体现了调度策略的安全性。
3) CBF-DRL 方法可以利用管网热惯性提高 CHP 机
组的经济收益，体现了调度策略的经济性。
4) CBF-DRL 方法可以有效解决非凸非线性问题。
该方法不需要先验知识，尤其适合 CHP-DHN 这
种具有非线性、耦合性、时变性的复杂多变量对
象，能够兼顾系统的安全要求与经济性目标，具
有一定的工程实际应用价值。
参考文献：
[1] FRANCO A, BELLINA F. Methods for optimized design
and management of CHP systems for district heating
networks (DHN)[J]. Energy Conversion and Management,
图 17 两种供热管网模型下 60 天累加利润对比图 2018, 172: 21-31.
Fig. 17 Cumulative profit comparison for 60 days in two [2] REZAIE B, Rosen MA. District heating and cooling:
district heating network models
review of technology and potential enhancements. 195-209.

Applied Energy, 2012, 93: 2-10. [17] LEITNER B, WIDL E, GAWLIK W, et al. A method for
[3] VANDERMEULEN A, HEIJDE B, HELSEN L. technical assessment of power-to-heat use cases to couple
Controlling district heating and cooling networks to local district heating and electrical distribution grids[J].
unlock flexibility: A review[J]. Energy, 2018, 151: Energy, 2019, 182: 729-738.
103-115. [18] WETTER M, ZUO W, NOUIDUI T S, et al. Modelica
[4] BUFFA S, FOULADFAR M H, FRANCHINI G, et al. buildings library[J]. Journal of Building Performance
Advanced control and fault detection strategies for Simulation, 2014, 7(4): 253-270.
district heating and cooling systems—A review[J]. [19] HEIGDE B, FUCHS M, TUGORES C R, et al. Dynamic
Applied Sciences, 2021, 11(1): 455. equation-based thermo-hydraulic pipe model for district
[5] XU F, HAO L, CHEN L, et al. Integrated heat and power heating and cooling systems[J]. Energy Conversion and
optimal dispatch method considering the district heating Management, 2017, 151: 158-169.
networks flow rate regulation for wind power [20] ZHOU S, HU Z, GU W, et al. Combined heat and power
accommodation[J]. Energy, 2023, 263: 125656. system intelligent economic dispatch: A deep
[6] Verrilli F, Srinivasan S, Gambino G, et al. Model reinforcement learning approach[J]. International journal
predictive control-based optimal operations of of electrical power & energy systems, 2020, 120: 106016.
[21] HAGHRAH A, NAZARI M, IVATLOO B. Solving
district heating system with thermal energy
combined heat and power economic dispatch problem
storage and flexible loads[J]. IEEE Transactions using real coded genetic algorithm with improved
on Automation Science and Engineering, 2016, Mühlenbein mutation[J]. Applied Thermal Engineering,
14(2): 547-557. 2016, 99: 465-475.
[7] GROSSWINDHAGER S, VOIGT A, KOZEK M. [22] 庞力平,梁其缘,梁惠勋,段立强.基于 Dymola 平台的超
Predictive control of district heating network using fuzzy 超临界二次再热机组切除高压加热器动态仿真[J/OL].
DMC[C]//2012 Proceedings of International Conference 热能动力工程,2023(1):120-128.
on Modelling, Identification and Control. IEEE, 2012: [23] LI Z, WU W, SHAHIDEHPOUR M, et al. Combined heat
241-246. and power dispatch considering pipeline energy storage
[8] YANG D, YAN S, ZHOU D, et al. Reinforcement of district heating network[J]. IEEE Transactions on
learning methods on optimization problems of natural gas Sustainable Energy, 2015, 7(1): 12-22.
pipeline networks[C]//2020 4th International Conference
on Smart Grid and Smart Cities (ICSGSC). IEEE, 2020:
29-34.
[9] ZHANG B, HU W, CAO D, et al. Deep reinforcement
learning–based approach for optimizing energy
conversion in integrated electrical and heating system
with renewable energy[J]. Energy conversion and
management, 2019, 202: 112199.
[10] CLAESSENS B J, VANHOUDT D, DESMEDT J, et al.
Model-free control of thermostatically controlled loads
connected to a district heating network[J]. Energy and
Buildings, 2018, 159: 1-10.
[11] WAN Y, QIN J, MA Q, et al. Multi-agent DRL-based
data-driven approach for PEVs charging/discharging
scheduling in smart grid[J]. Journal of the Franklin
Institute, 2022, 359(4): 1747-1767.
[12] GANGOPADHYAY B, DASGUPTA P, DEY S. Safe and
stable RL (S2RL) driving policies using control barrier
and control lyapunov functions[J]. IEEE Transactions on
Intelligent Vehicles, 2022, 8(2): 1889-1899.3
[13] CHENG R, OROSZ G, MURRAY R M, et al. End-to-end
safe reinforcement learning through barrier functions for
safety-critical continuous control tasks[C]//Proceedings
of the AAAI conference on artificial intelligence. 2019,
33(01): 3387-3395.
[14] MARVI Z, KIUMARSI B. Safe reinforcement learning:
A control barrier function optimization approach[J].
International Journal of Robust and Nonlinear Control,
2021, 31(6): 1923-1940.
[15] COHEN, MAX H, BELTA, Calin. Safe exploration in
model-based reinforcement learning using control barrier
functions.[J].Automatica,2023,Vol.147: 110684.
[16] GRABER M, KOSOWSKI K, RICHTER C, et al.
Modelling of heat pumps with an object-oriented model
library for thermodynamic systems[J]. Mathematical and
Computer Modelling of Dynamical Systems, 2010, 16(3):

基于安全强化学习的热电联产机组经济调度策略研究 王欣

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于安全强化学习的热电联产机组经济调度策略研究 王欣

Uploaded by

Copyright:

Available Formats

系统仿真学报

Journal of System Simulation

第 xx 卷第 x 期 系统仿真学报© Vol. xx No. x

Research on Economic Dispatching Strategy of CHP Units Based on Safe Reinforcement

1 基于 Modelica 的 CHP-DHN 建模 1) 水力学模型

min  Pmin   H t ,    H t   P  本文的优化目标是优先满足用户热需求，则：

为了研究和测试提出的 CHP 机组调度模式， 图 5 为供应管道入口和出口温度变化和焓流量

图 6 基于 CBF-DRL 算法的 CHP-DHN 调度优化结构图

s.t. L f B( s)  Lg B( s)a   ( B( s))  0 (10) 作并观察状态的转移，将状态转移向量 s,a,r,s' 储

s.t. alow  a  ahigh 存到经验池中。最后，从经验池中随机采样一批数

步长的机组利润如下： s 当前网络 argmaxQ( s',a ) 目标网络

其中， st  为系统在时刻 t 的状态， at 

Rdemand    基于 CBF 约束的二次规划（Quadratic Program，

1. 控制器输入 图 10 基于 CBF 的 DRL 策略探索指导

CBF 控制器输出为经安全约束后的 CHP 机组 安全约束。此时，重新构建二次规划对 CBF 控制器

范围内取值； B( s ) 在离线训练阶段不断更新。 作空间 A ；

是惩罚系数，它是一个用于惩罚不安全行为动作的 获得新状态 st 1 和立即奖励 rt ,1 ；

 Yt DDQN  Q  s, a;   ；

重复 t=1:T 内的步骤，此时 元（FMU）模块，并在 Python 环境中进行加载和

的经济性和安全性是通过评估器的输出利润和越 为了在 Modelica 模型和 OpenAI Gym 工具包之间实

限比例来衡量的。本文具体从以下五个方面评估越 现协同仿真，本文还在 Python 中开发了 MC-DG 工

1) 相对于消费者热需求的未交付热量； 从而有助于更灵活地开发 DRL 算法。

2) 供水管道入口温度高于上限； 4.2 仿真参数设置

将产热量的离散步长设为 5，离散为 14 个值：[5, 图 13 典型日的热需求曲线（上）和实时电价曲线（下）

CHP-DHN 经济调度模型分 10 次迭代求解，迭代长

图 15-a 最大入口供应温度越限百分比图 图 15-c 最大热媒质量流量越限百分比图

(2) 最小入口返回温度越限 分析图 15 可知，DDQN 算法在策略探索的过

典型日利润(￥) MINLP DDQN CBF-DDQN 表 3 两种供热管网模型下累加利润对比

review of technology and potential enhancements. 195-209.

You might also like

基于安全强化学习的热电联产机组经济调度策略研究王欣

基于安全强化学习的热电联产机组经济调度策略研究王欣

第 xx 卷第 x 期系统仿真学报© Vol. xx No. x

为了研究和测试提出的 CHP 机组调度模式，图 5 为供应管道入口和出口温度变化和焓流量

1. 控制器输入图 10 基于 CBF 的 DRL 策略探索指导

CBF 控制器输出为经安全约束后的 CHP 机组安全约束。此时，重新构建二次规划对 CBF 控制器

范围内取值； B( s ) 在离线训练阶段不断更新。作空间 A ；

是惩罚系数，它是一个用于惩罚不安全行为动作的获得新状态 st 1 和立即奖励 rt ,1 ；

重复 t=1:T 内的步骤，此时元（FMU）模块，并在 Python 环境中进行加载和

的经济性和安全性是通过评估器的输出利润和越为了在 Modelica 模型和 OpenAI Gym 工具包之间实

限比例来衡量的。本文具体从以下五个方面评估越现协同仿真，本文还在 Python 中开发了 MC-DG 工

1) 相对于消费者热需求的未交付热量；从而有助于更灵活地开发 DRL 算法。

图 15-a 最大入口供应温度越限百分比图图 15-c 最大热媒质量流量越限百分比图

(2) 最小入口返回温度越限分析图 15 可知，DDQN 算法在策略探索的过