基于强化学习的配电网负荷转供方法v3

LOGO
基于强化学习的
配电网负荷转供方法
目录
1 工程问题
2 科学问题
3 国内外研究现状
4 研究思路及方法
5 研究成果
1. 工程问题
配电网具有闭环设计、开环运行的特点，联络开关为常开开关，在通常运行情况下保持断开状态，用
于紧急备用转移，分段开关为常闭开关，在通常运行情况下保持闭合状态，其主要功能是隔离故障。当辐
射状运行的配电网发生故障时，故障线路下游的负荷都会中断供电，需要尽快地切除故障设备，并快速地
恢复下游失电负荷用户。负荷转供通过联络开关和分段开关的操作与不同组合，改变供电的路径，在满足
配电网开环方式运行、电压幅值和载流量等基本要求的前提下，将故障或检修停电范围内、以及重载区域
内的线路负荷转带至其余配电线路，从而达到降低故障或检修带来的失电损失和减少过载配电线路的目的
，提高配电网运行的可靠性、经济性与客户满意度。
随着各行各业对电力的需求迅速增长，配电网
节点数大量增加，结构愈加复杂，开关的组合与供电
路径的选择呈现了组合爆炸的问题；而且城市电网建
设相对较为滞后，导致电网结构的不合理等问题比较 I
突出，故障后转供裕度不足等问题更加大了负荷转供
故
的难度。目前配网恢复主要采取的方法为人工经验决障
两
策方法，很难达到满足约束的最优方案；学者提出的端
跳
其它算法，都要消耗大量时间仿真计算，因此迫切需开
断路器
要高效的转供方法解决最优策略与快速性的矛盾，以
故障线路打开的分段开关
尽可能少的成本（操作次数与网损），为更多的用户
负荷节点分段开关联络开关合上的联络开关
供电。
1. 工程问题
研究难点
难点 1 组合爆炸问题
动作空间
开关1 策策策近年来配电网节点数大量增加，结构愈加复杂，在负荷转
略略略
开关2
1 2 3 供过程中，由于停电区域可能连接多条联络线，以及停电区域可
开关3 2 1
能的切割方法很多，使得在每次动作一个开关时都有很多可能的
开关4 4 动
作选择，而负荷转供过程是由一系列动作构成，因此可能产生非常
Ċ
开关i-1 1
开关i
顺多的可能性，即出现组合爆炸问题。
3
开关i+1 3
序负荷转供的难点是在极大的动作空间中，快速找到可行且
Ċ
开关j 1 3 4
最优的动作策略，由于其空间过大，遍历与大范围的尝试都不是
可行的方法。
Ċ
开关k 4 2
Ċ
开关l 2
策略 1 ：开关 j→ 开关 3→ 开关 i → 开关
Ċ
开关n k
策略 2 ：开关 i-1→ 开关 k→ 开关 j → 开
关4
策略 3 ：开关 3→ 开关 l→ 开关 i+1 → 开
1. 工程问题
研究难点
难点 2 多目标，最优解与快速性矛盾
配电网负荷转决策过程具有许多目标，同时受到许多因素的限制。目标包括负
荷切除量最少、开关动作次数最少、转供后网损最小等；转供的约束条件需要满足
线路潮流分布、配电网辐射状运行和供电质量等。在诸多条件都需要考虑的情况下
，求解时平衡与兼顾这些影响因素是研究的难点。
由于国民经济与用电量增速较快，配电网建设存在一定程度的滞后，在配电网
发生故障时，存在联络线转供容量裕度不足的情况，如一或两条联络线无法满足失
电负荷，可能需要更加复杂的切割方法或者负荷转移方法才能恢复负荷，导致负荷
转供难度增加。同时在非常大的解空间内寻找最优策略需要消耗大量时间进行迭代
仿真计算，因此求解速度与求解最优性的矛盾也是研究的一大难点。
2. 科学问题
配电网故障是随机发生的，由于配电网拓
扑结构可能组合很多，其转供决策过程中很可
故障状态能出现许多从未出现过的状态，因此配电网故
动作 1
拓扑结构障后在拓扑结构上存在很大的不确定性；另外
多开关不确定性
步随着电力交通工具的大量普及，还需要考虑配
决
配网状态
电网中未来有可能出现的负荷波动的不确定性。
策
…
未来负荷
不确定性配电网负荷转供决策过程是由一系列分段开关
与联络开关的操作组合而成，而在每次动作一
结束状态
个开关的状态时，配电网的状态信息都会随之
实时地改变。所以配电网负荷转供问题是考虑
未来不确定性的多步决策问题。
2. 科学问题

在一个时序过程中，如果 +1 时刻的状
𝐭 𝟎 故障状态态仅取决于 t 时刻的状态而与 t 时刻之

量测 1
动作 1 电压电流前的任何状态都无关时，则认为 t 时刻的

开关状态具有马尔科夫性 (Markov
𝐭 𝟏 配网状态量测 2
property) 。若过程中的每一个状态都具有
n 电压电流
动作 2
步马尔科夫性，具备了马尔科夫性的过程称为
决开关
策量测 3 马尔科夫过程 (Markov process) 。
𝐭 𝟐 配网状态
电压电流转供过程中，每个状态都由其上一个状
…
…
态动作得到，即开断一个开关，因此取决于
量测 n
电压电流
，而与 t 时刻之前的任何状态都无关。所
𝐭 𝐧 结束状态
以配电网负荷转供过程是马尔科夫决策过程
配电网转供过程示意图，因此用强化学习算法来解决多步决策最优
（共动作 n 个开关）
控制的问题。
3. 国内外研究现状
分层供电树法、 N-1 准则法

启发式特点：计算简便，速度较快，难以解决复杂问题，得到解的优劣非常依赖于
算法网络的初始状态。
最优流模式法
数学特点：不适合复杂的大电网，易出现“组合爆炸”的问题，仿真过程的简化
配优化法影响结果的准确性，极易陷入局部最优解，计算过程比较消耗时间。
电
网专家系统法
负专家系特点：实时性好，适用性广，适用于网络较大时的方案求解。知识库的建立
荷统法和集成费时费力，实际中故障种类多种多样，无法记录包括全部情况。
转禁忌搜索算法、粒子群搜索算法、遗传算法、蚁群算法
供特点：只能够进行故障后的在线决策，在大范围空间内搜
随机搜索索，迭代次数多，需要大量仿真计算量大，求解时间长；且
算法无法考虑网络的不确定性状态，结果不一定适合实际。
人工智
能算法神经网络法
特点：缺少有标签数据的情况下难以获得较好的训练结果，
有监督学
与配网系统没有交互过程，训练好的神经网络在配网拓扑发
习算法生变化时，无法考虑配电网的不确定性状态，因此无法适应
实际情况。
3. 国内外研究现状
强化学习特点总结
除神经网络外的其他算法都无法避免故障后的大量仿真
计算时间，采取简化的仿真方法又影响结果准确性。而强化
离线学习
在线应用学习在训练时使用大量历史数据或者仿真数据进行离线学
习，智能体学习完成后，发生故障时，强化学习在线应用无
考虑配网需大量仿真过程可以直接给出决策。
不确定性其他算法都没有与电网进行信息交互的过程，因此无法
考虑配电网所实时发生的变化，如神经网络方法在拓扑结构
配网信息发生变化时，当前模型将不再适用。启发式与数学优化方法
有效利用都是基于仿真进行决策的方法，属于离线决策方法，可能结
果也无法适用于实际情况。强化学习方法利用了配电网实时
长短期运行大数据，结合实际拓扑及负荷情况进行决策，并且考虑
利益最大
未来不确定性，以最大化长期与短期收益为目标，能够给出
更适合实际情况的转供方案，有效利用了大量配电网实时信
息。
4. 研究思路及方法——
强化学习的马尔科夫决策过程强化学习的可以实现对多
步决策问题的最优控制，通过
𝐭 𝟎 状态状态量获得状态的实时数据信息，在

分析考虑配电网状态的不确定性下
动作 1
控制进行分析，进而得到当前的动
动作奖励反馈
𝐭 𝟏 状态作，并通过动作后得到的反馈
状态量分析最
n
优信息进行学习。
步动作 2
控制
控通过多步决策，其动作组
决
反馈制
策动作奖励合就构成了最终的策略，强化
𝐭 𝟐 状态智
状态量分析
能学习的目标是找到一个最优的
…
体
… 控制
反馈策略，从而使获得的总动作奖
状态量励预期最大。
𝐭 𝐧 状态
马尔科夫决策过程示意图为动作策略，使 R 最大的

最优动作策略。
决策长 / 短期奖
励
强化学习是考虑不确定性的多步决策过程，决策过程中单步运行的短期奖励，主要有各
种约束条件；同时在多步决策中综合考虑长期奖励，主要由各类长期目标构成。强化学习方
法以此为依据构建了后面的 Reward 奖励值，决策训练过程中将以最高 Reward 为导向。
短期（单步）奖励长期（多步）奖励
𝑵 𝒐𝒑

节点电压约束
𝑚𝑎𝑥 ∑ 𝑃𝒊 𝒚 𝑖
𝒊=𝟏
负荷恢复累积量奖励
传输电流约束
min
𝑁 𝑜𝑝

累积动作次数奖励
拓扑约束

∑ 𝑆 𝑖𝑘 − ∑ 𝑆 𝑗 𝑘 =𝐷 𝑘
𝑷 𝒇 𝑖∈ 𝐸𝑇 𝑘 𝑗∈ 𝐸𝐹𝑘 累积有功损耗惩罚
)

潮流约束
配电网在发生故障时，需要通过逐步操作投切线路，来完成停电区域的恢复。因此，负荷
转供是一个多步决策的过程。在每次投切一条线路时，配电网的状态都会发生变化，基于强化
学习的负荷转供方法需要大量配电网的实时状态信息，在未来配电网装配大量的高级量测装置
后，可以基于配网 SCADA 数据进行决策。
基于数据驱动的强化学习方法，非常适合处理多步决策的问题，其通过所处环境并在此基
础上决策动作的多次迭代，每步决策都考虑负荷的不确定性变化。对于配电网，强化学习可以
在当时的运行数据上进行决策，多次迭代达到最佳负荷转供策略。
强化学习
强化学习是指从环境状态到行为映射的学习，以
使奖励信号函数值最大。基本思想是一个学习系统与
其环境的反复交互作用，从所在环境中自身经历产生
反馈的信息来学会执行任务并不断地对系统性能进行
自我改进。强化学习不需要精确的历史训练样本及系
统先验知识，是一种基于值函数迭代的在线学习和动
态最优技术。
Q-learning
获取状态信息
Q-Learning 是强化学习的重要
方法，深度强化学习算法都是以 Q- 根据 Q 表选取动作进
入
Learning 为基础的改进算法， Q-
执行动作下
Learning 是强化学习算法中基于值获得 Reward 反馈一
迭代的算法， Q 即为 Q （ s ，状
态
a ），就是在某一个时刻的 state 状更新 Q 表
态下，采取动作 a 能够获得收益的期
Q表动作动作 …
Q
望，环境会根据 agent 的动作反馈
状态 0.8 -1.6 … 表
相应的 reward 奖赏，所以算法的主 2.3 1.2 … 示
状态
要思想就是将 state 和 action 构建 … … … … 意
… … … …
成一张 Q_table 表来存储 Q 值，然
Q 表为存储状态与动作关系的表格，对应于每
后根据 Q 值来选取能够获得最大收个状态下的每个动作都有 Q （ s ， a ），所以智能
益的动作。体通过找到对应 s 下 Q 值最大的 a 进行动作，更新
Q 表时会考虑 Reward 与未来可能动作。
Q-learning
Q表动作动作 … Q表动作动作 …
状态 0 0 … 状态 3.651 0.231 …
状态 0 0 … 状态 -5.321 2.548 …
… … … … … … … …
训练前训练后
通过大量的训练， Q 表中的值会不断迭代，每个状态下能够在未来获得
Reward 最多的动作 Q 值会逐渐超过其他动作的值，通过大量的训练后， Q 表
中的值会收敛于未来能获得的 Reward 的期望。因此训练好的智能体会寻找对应
状态下 Q 值最大的进行动作，即在考虑不确定性下未来收益最大、表现最好的
动作，所以智能体能够找到最佳的控制策略。
深度强化学习
Q-learning 是状态到动作的映射，对于离
散状态可以采用表格法存储映射关系。而配电网
中的状态信息为连续变量，因此，将深度学习作
为连续状态到动作的映射函数。
深度学习将输入的状态量转换为动作评价
值以供强化学习选取动作；强化学习执行动作并
根据回报值评判动作价值，并为深度学习提供更
新学习的方向。
感知决策
（深度学习）（强化学习）
 从环境中获取目标的观测信息  提供当前环境下的状态信息
 将当前状态信息映射到相应动作  基于动作 Q 值与动作策略执行动作
的Q值  基于预期回报评判动作价值
 为深度学习提供学习所用条件
开关动作A
状态与动作
强化学习以配网实时状态信息环境：配电网智能体
（电压、电流、线路状态等）为状态联络开关
电压V、电流I
线路状态SW
分段开关
故障状态F
输入，以线路的开关投切为动作空状态S
约束目标
间，每步选取动作空间中的一个动电压越限损失负荷
传输容量越限动作次数
作，通过逐步多次动作，给出到达最环网状态
有效操作
线损评价
电压质量
ȘȘ ȘȘ
优配电网状态的最佳动作方案。
奖励Reward
Reward
配网恢复过程中，强化学习智能体以最大化总 Reward 为目标，不断探索最
佳策略。因此， Reward 的设置至关重要， Reward 由安全性约束条件、动作次
数、线损率等经济因素共同决定，所以训练好的智能体动作时，会在满足约束的条
件下，采用最少的动作次数达到最小线损率等多方面最优。
Reward 实
现
Reward 由长期奖励与短期奖励构成，长期奖励用以引导强化学习能够更容易地找到最
优点。短期奖励由约束条件构成，只有在超越约束时才起作用，因此考虑采用固定的罚函数
加入 Reward 中。
𝑹𝒆𝒘𝒂𝒓𝒅=𝑹 𝑻 + 𝑹 𝑷

𝑵 𝒐𝒑
长期奖励
∑ 𝑃𝒊 𝒚 𝑖 𝑷𝑼 + 𝑷 𝑰 + 𝑷𝑳𝒐𝒐𝒑 + 𝑷 𝒇 短期奖励
𝒊=𝟏
特点：
𝑵 𝒐𝒑 ∙ ∆ 𝑷 电压越限惩罚

固定的高惩罚值
负荷累积恢复常数，常为较大
𝑙 电流越限惩罚

绝对值的负值。
2
累积动作次数 ∆ 𝑃=∑ 𝐼 𝑅 𝑟 𝐾 𝑟 𝑟
潮流不平衡惩罚

r =1
非辐射运行惩罚

累积网损
非辐射运行惩罚特点：
作为过渡状态其惩罚值较小，
非过渡状态则为高惩罚值。
智能体与配电网环境的交互过程
 Agent 从配电网中获得当前所处的状态 S ，即系统实获得状态S
循
时量测量；
环
动作评价Q
 对于动作空间的每个动作即所有的线路投切， Agent 至
完
根据该状态下每个动作的评价值 Q ，选取其中一个最选择动作A 成
本
佳的动作 A ，即改变其中一条线路的状态；执行次
 当 Agent 所选择的动作作用于配电网时，配电网发生更新状态S 故
获得R 障
变化，即配电网转移至新状态并对 Agent 的动作进行恢
学习复
奖励或惩罚 Reward ；
更新评价Q
 智能体通过 Reward 进行学习并更新评价值 Q 。
以上为进行一次动作的过程，若操作一条线路无法完成恢复，循环进行多次动作构成
有先后顺序的动作序列，即给出负荷转供的决策结果。
强化学习对于不同的学习模型可能会有不同的表现，强化学习及其各种改进算法分别适用解决各类从
简单到复杂的问题。除了 Q-learning 与 Sarsa 算法，其他的强化学习算法中基本都有深度神经网络。
Q-learning 、 Sarsa 等算
法
观测量与动作都为离散变量，基于存储的 Q 值表进行动作选取，
处理简单的离散问题效果较好。
Deep Q Network 、 Double-DQN 、 Dueling-DQN
强化采用神经网络计算 Q 值函数，适合观测量为图像或连续变量，动
学习作为离散变量，两大利器“经验回放”与“ Fixed Q-target” 处

理复杂问题的效果较好。 Duling-DQN 将状态与动作分别进行评
价学习，非常适合处理电力系统控制问题。
Actor-Critic 、 DDPG
采用策略梯度下降选择连续动作，值函数 Q 对动作进行评价学
研究最佳的算法与超参数习，适合观测量与动作均为连续变量的问题。
 对于负荷转供控制问题，分别研究多种不同的强化学习算法，以获得最佳的学习结果。
 对于含有深度神经网络的强化学习算法，研究最适合负荷转供模型的超参数与激活函数，
使结果最精确。
5. 研究成果
准备工作主要为软件学习与算法理论学习，算法理论主要学习了 Q-learning 、 DQN 等算法的原理
与学习过程。软件学习有 OpenDSS 、 Python 等。
由于无法在真实的电力系统中进行训练，此时我们需要搭建仿真训练环境， OpenDSS （ Open
Distributed System Simulator ）是美国电科院研发的开源三相配电网潮流仿真软件。与其他仿真软件相
比， OpenDSS 拥有更丰富的 COM （ Component Object Model ，组件对象模型）接口，支持
Matlab 、 Python 等编程语言，调用响应速度快，用户可以根据需要灵活地开发电力系统功能。
训练环境 OpenDSS+Python
 研究使用 Python 语言对 OpenDSS 的 COM 接
口进行调用，共同搭建复杂仿真训练环境。
 使用 OpenDSS 软件模拟人工对开关的操作，并
读取电网中的电压、电流、相角等实时状态量，
以模拟 SCADA 系统。
 通过电压质量、电流越限、操作次数、负荷切除
量、线损、环网孤岛判断等原则计算 Reward ，
其中负荷切除量、线损、环网孤岛不可直接读
取，需要设计相关算法。
5. 研究成果
随着训练次数的逐渐增加，可以看到动作的回报值 Reward 越来越高，此时代表

强化学习智能体已经从训练中学习到了控制配电网的技巧，能够有能力从诸多动作中
选择出较好的动作。而由于强化学习无需在故障后进行大量仿真计算而直接给出策
略，所以其给出配电网动作策略的程序运行时间也小于 3 秒，具有很快的相应速度。
程序运行 Reward 结果
5. 研究成果
设定自动化程序，使用 Matlab 、 Python 等编程调用与操作电力系统仿真软件
OpenDSS ，并完成实时电流、电压、相角等电气信息量的读取与处理输出。如下图三步演
示负荷转供过程，首先载入正常运行电网使其中一个辐射网发生故障，再合上联络开关，出
现部分电压偏低，切除部分负荷后恢复正常。
调用 OpenDSS 自动恢复线
路
① 发生故障 ② 合联络开关恢复 ③ 切除部分负荷

5. 研究成果
配电网负荷转供演示
1 配电网发生故障前的正常状态
2 105-106 线路发生故障时
由于单条联络线容量不足，打
开 112-113 线路，将停电区
3 域分为两段分别恢复
合上 89-110 联络开关
4 恢复第一部分用户
合上 115-123 联络开关
5 恢复第二部分用户
感谢您的意见与建议

基于强化学习的配电网负荷转供方法v3

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于强化学习的配电网负荷转供方法v3

Uploaded by

Copyright:

Available Formats

LOGO

𝐭 𝟎 故障状态态仅取决于 t 时刻的状态而与 t 时刻之

分层供电树法、 N-1 准则法

𝐭 𝟎 状态状态量获得状态的实时数据信息，在

马尔科夫决策过程示意图为动作策略，使 R 最大的

学习作为离散变量，两大利器“经验回放”与“ Fixed Q-target” 处

随着训练次数的逐渐增加，可以看到动作的回报值 Reward 越来越高，此时代表

① 发生故障 ② 合联络开关恢复 ③ 切除部分负荷

You might also like

基于强化学习的配电网负荷转供方法v3

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于强化学习的配电网负荷转供方法v3

Uploaded by

Copyright:

Available Formats

LOGO

𝐭 𝟎 故障状态 态仅取决于 t 时刻的状态 而与 t 时刻之

分层供电树法、 N-1 准则法

𝐭 𝟎 状态 状态量 获得状态的实时数据信息，在

马尔科夫决策过程示意图 为动作策略， 使 R 最大的

学习 作为离散变量，两大利器“经验回放”与“ Fixed Q-target” 处

随着训练次数的逐渐增加，可以看到动作的回报值 Reward 越来越高，此时代表

① 发生故障 ② 合联络开关恢复 ③ 切除部分负荷

You might also like

𝐭 𝟎 故障状态态仅取决于 t 时刻的状态而与 t 时刻之

𝐭 𝟎 状态状态量获得状态的实时数据信息，在

马尔科夫决策过程示意图为动作策略，使 R 最大的

学习作为离散变量，两大利器“经验回放”与“ Fixed Q-target” 处