基于共识策略的多无人机组网研究黄芷菡

密级 保密期限
：：


．
避耆部ｆＡｆ


硕士学位论文


题目： 基于共识策略的多无人机



组网研究 


学 号：  ２０１９１１０３４９


姓 名：

黄芷菡 


专 业  信息与通信工程
：


导 师：

许晓东 


学 院  信息与通信工程
：


２０２２年５月２７ 

日
中国 ■
北京


密级  保密期限
： 

：
分ｆ却ｔ大聲


硕士学位论文


题目  基于共识策略的多无人机组网研究
： 

学号：  ２０１９１１０３４９ 


姓名：

ｍｍ 


专 业  信息与通信工程
： 

导师：

许晓东 


学 院  信息与通信工程
： 

２０２２年０５月２７ 

日
Ｓｅｃｒｅｃｙ Ｃｌａｓｓｉｆ
ｉｃａｔｉｏｎ：  ＳｅｃｒｅｃｙＰｅｒｉｏｄ 

：
Ｂｅｕｎｇ  Ｕｎｖｅｒｓｔｙ  ｏｆ
ｉ 
 ｉｉ
｜薦  Ｐｏｓｔｓ  ａｎｄ


Ｔｅｌｅｃｏｍｍｕｎｃａｔｏｎｓ

 ｉｉ
Ｔｈｅｓｉｓ ｆｏｒ  ＭａｓｔｅｒＤｅｇｒｅｅ

 
Ｔｏｐｉｃ：  Ｒｅｓｅａｒｃｈ ｏｎｍｕｌｔｉ
－
ＵＡＶ  ｎｅｔｗｏｒｋ


ｂａｓｅｄ  ｏｎ  ｃｏｎｓｅｎｓｕｓ ｓｔｒａｔｅｇｙ 


ＳｔｕｄｅｎｔＮｏ．：
 
２０１９１１０３４９ 


Ｃａｎｄｉｄａｔｅ：
 
黄龙菌 


Ｓｕｂｊｅｃｔ：  Ｉｎｆｏｒｍａｔｉｏｎ ａｎｄ  Ｃｏｍｍｕｎｃａｔｉｏｎ Ｅｎｇｉｎｅｅｒｉｎｇ
ｉ 

Ｓｕｐｅｒｖｉｓｏｒ  ：

许晓东 


Ｉｎｓｔｉｔｕｔｅ：
 
Ｓｃｈｏｏｌ  ｏｆ  Ｉｎｆｏｒｍａｔｉｏｎ  ａｎｄ 



Ｃｏｍｍｕｎｉｃａｔｉｏｎ Ｅｎｇｉｎｅｅｒｎｇ
ｉ



２０２２０５２７
．
 ．
基于共识策略的多无人机组网研究


摘 

要
近年来，无人机（ＵＡＶ）以其体积小、机动性强成本低等优点、 


，
在人们生活的各个领域得到了广泛的应用。
与单无人机相比，团队式


的无人机系统在执行追踪、监控、检查和自动化工厂等协作任务方面


具有显著优势其中作为无人机领域的个重要应用多无人机协


一
，
。，
同完成追踪任务目前受到了广泛的关注 


。
在多无人机追踪网络中，无人机之间准确及时的信息交互是精准



追踪目标的关键。
目前分布式协同估计方法越来越受到重视，多智能


体共识策略就是其中种重要的方法有效的共识策略可以通过与相


一
邻无人机的信息交互完成追踪任务。然而，在多无人机追踪网络中 

，
由于追踪无人机时刻在移动，且信道环境复杂多变，网络拓扑会随时


发生改变，
一
些现有的通信链路也会发生频繁地中断，导致通信质量


下降，严重影响共识策略的准确性和收敛时延，以至于无法实现精准


追示
￡ 

。
在追踪网络中，影响共识收敛时延的主要因素是网络的连通度 

，
且无人机在追踪和共识的过程中能效也是个最基本的性能指标
一


，
，
因此，本文将针对以上指标进行以下研究 

：
针对增减网络拓扑边以提高网络连通度的方式本文在追踪网络 
 ，
中引入了架中继无人机建立了种新的网络拓扑更新方式提出 

一
一
，
，
了种基于ＤＱＮ算法的中继无人机部署与轨迹规划的方案将部署


一
中继无人机的过程分为两个步骤。首先提出了基于ＤＱＮ的部署算法



来获取中继无人机的初始位置优化了追踪网络的能量消耗和共识收 
 ，
敛时延其次在追踪无人机的运动过程中提出了基于ＤＱＮ的轨
。，

 ，
迹规划算法有效地提高了多无人机跟踪网络的共识成功概率降低
，

 ，
了多无人机追踪网络的中断概率仿真结果表明与Ｑｅａｍｎｇ算法
－
。，ｌｉ 

、
随机位置部署算法相比，本文提出的算法具有更好的性能 


。
针对增减网络拓扑权重以提高网络连通度的方式本文提出了


一
种基于ＭＡＤＱＮ算法的多无人机轨迹和功率分配联合优化方案。 

由
于联合优化问题的组合性和非凸性，同时考虑到每架无人机的效用是


根据网络环境和其它无人机的行为来确定的可以将该问题建模为


一
个随机博弈问题针对离散动作空间和大状态空间导致的计算复杂度
。 

高的问题提出了，  ＭＡＤＱＮ算法来求解该问题的最优策略仿真结果

 。
表明，本文提出的算法与其它算法相比，具有明显的优势，有效地减



少了共识收敛时延和网络的能量消耗 

。
针对改变网络连通度可以减少共识收敛时延的具体原因本文进

 ，
步从图论的角度解释了网络共识问题分析了网络连通度并且


一
，，，
详细给出了前两个提出的方案之所以能提升和改善共识收敛时延的


具体原因，同时对其分别进行了相应的仿真，仿真结果验证了分析结


果 

。
综上所述，本文主要针对追踪场景下，网络的共识收敛时延和能



效这两个性能指标展开研宄，从网络连通度的角度做了相应的分析 

，
并分别提出了两种优化方案，对未来可研究方向进行了展望 

。
关键词：多无人机追踪网络共识收敛时延路径规划能效优化


深度强化学习算法


ＲＥＳＥＡＲＣＨＯＮＭＵＬＴＩＵＡＶＳＮＥＴＷＯＲＫ

  
－
ＢＡＳＥＤＯＮ  ＣＯＮＳＥＮＳＵＳ  ＳＴＲＡＴＥＧＹ
 

ＡＢＳＴＲＡＣＴ


Ｉｎ  ｒｅｃｅｎｔ
 ｙｅａｒｓ， 
ｕｎｍａｎｎｅｄ  ａｅｒｉａｌ  ｖｅｈｉｃｌｅ  （ＵＡＶ）  ｈａｓ  ｂｅｅｎ  ｗｉｄｅｌｙ  ｕｓｅｄ


ｉｎ  ｖａｒｉｏｕｓ  ｆ
ｉｅｌｄｓｏｆｐｅｏｐｌｅ 
ｓ  ｌｉｆｅ  ｂｅｃａｕｓｅ  ｏｆ  ｉｔｓｓｍａｌｌ  ｓｉｚｅ， ｓ
ｔｒｏｎ
ｇ  ｍｏｂｉｌｉｔｙ


ａｎｄ ｌｏｗｃｏｓｔ  ．  Ｃｏｍｐａｒｅｄ  ｗｉｔｈ  ｓｉｎ
ｇｌｅ  ＵＡＶ， 
ｔｅａｍ  ＵＡＶ  ｓ
ｙｓｔｅｍｈａｓ   ｓｉ
ｇｎｉｆｉｃａｎｔ


ａｄｖａｎｔａｏｐｅｒａｔｉｖｅ  ｔａｓｋｓ  ｓｕｃｈ  ａｓ  ｔｒａｃｋｉｎｇ
ｇｅｓ  ｉｎ  ｐｅｒｆｏｒｍｉｎｇ  ｃｏ，  ｍｏｎｉｔｏｒｉｎｇ 

，
ｉｎｓ
ｐｅｃ
ｔｉｏｎ  ａｎｄ  ａｕｔｏｍａｔｉｃｃｈｅｍｉｃａｌ
ｐ
ｌａｎｔ  ．Ａｍｏｎｇ  ｔｈｅｍ  ａｓ  ａｎ  ｉｍｐｏｒｔａｎｔ
，


ａ
ｐｐｌｉｃａｔｉｏｎ  ｉｎ  ｔｈｅ  ｆｉｅｌｄ  ｏｆ  ＵＡＶ， 
ｍｕｌｔｉ－
ＵＡＶｓ ｃｏｏｐｅｒａｔｉｖｅ  ｔｒａｃｋｉｎｇ

ｔａｓｋ ｈａｓ


ａｔｔｒａｃｔｅｄ  ｅｘｔｅｎｓｉｖｅ  ａｔｔｅｎｔｉｏｎ 

．
Ｉｎ  ｔｈｅ  ｍｕｌｔｉ
－
ＵＡＶｓ  ｔｒａｃｋｉｎｇ  ｎｅｔｗｏｒｋ，  ｔｈｅ  ａｃｃｕｒａｔｅ  ａｎｄ  ｔｉｍｅｌｙ


ｉｎｆｏｒｍａｔｉｏｎ  ｉｎｔｅｒａｃｔｉｏｎ  ｂｅｔｗｅｅｎ  ＵＡＶｓ  ｉｓ  ｔｈｅ  ｋｅｙ  ｔｏ  ａｃｃｕｒａｔｅｌｙ  ｔｒａｃｋ  ｔｈｅ


ｔａｒ
ｇｅｔ．  Ａｔ  ｐｒｅｓｅｎｔ，  ｍｏｒｅ  ａｎｄ  ｍｏｒｅ  ａｔｔｅｎｔｉｏｎ  ｈａｓ  ｂｅｅｎ  ｐａｉｄ  ｔｏ  ｄｉｓｔｉｂｕｔｅｄ
ｒ 

ｃｏｌｌａｂｏｒａｔｉｖｅ  ｅｓｔｉｍａｔｉｏｎｍｅｔｈｏｄｓ  ．  Ｍｕｌｔｉ
－
ａ
ｇｅｎｔｃｏｎｓｅｎｓｕｓ  ｓｔｒａｔｅｇｙ  ｉｓ  ｏｎｅ  ｏｆ
 

ｔｈｅ  ｉｍｐｏｒｔａｎｔ  ｍｅｔｈｏｄｓ．  Ａｎ  ｅｆｆ
ｅｃｔｉｖｅ  ｃｏｎｓｅｎｓｕｓ  ｓｔｒａｔｅｇｙ  ｃａｎ  ｃｏｍｐｌｅｔｅ  ｔｈｅ


ｔｒａｃｋｉｎｇ  ｔａｓｋ  ｔｈｒｏｕｇｈ  ｔｈｅ  ｉｎｆｏｒｍａｔｉｏｎ  ｉｎｔｅｒａｃｔｉｏｎ  ｗｉｔｈ  ａｄａｃｅｎｔ  ＵＡＶｓｊ


．
Ｈｏｗｅｖｅｒ  ，
ｉｎ  ｔｈｅ  ｍｕｌｔｉ－
ＵＡＶｓ  ｔｒａｃｋｉｎｇ  ｎｅｔｗｏｒｋ， ｂ
ｅｃａｕｓｅ  ｔｈｅ  ＵＡＶ  ｏｆ ｔｈｅ


ｔｒａｃｋｉｎｇ  ｎｅｔｗｏｒｋ  ｉｓ  ｍｏｖｉｎｇ  ａｌｌ  ｔｈｅ  ｔｉｍｅ，  ａｎｄ  ｔｈ
ｅ  ｃｈａｎｎｅｌ  ｅｎｖｉｒｏｎｍｅｎｔ  ｉｓ


ｃｏｍ
ｐｌｅｘ
 ａｎｄ  ｃｈａｎ
ｇｅａ
ｂｌｅ， 
ｔｈｅ  ｎｅｔｗｏｒｋ  ｔｏｐｏｌｏｇｙ  ｗｉｌｌ  ｃｈａｎｇｅ  ａｔ  ａｎｙ  ｔｉｍｅ 

，
ａｎｄ  ｓｏｍｅ  ｅｘｉｓｔｉｎｇ ｃｏｍｍｕｎｉｃａｔｉｏｎ  ｌｉｎｋｓ  ｗｉｌｌ  ｂｅ  ｉｎｔｅｒｒｕ
ｐｔｅｄ ｆ
ｒｅｑｕｅｎｔｌｙ 

，
ｒｅｓｕｌｔｉｎ
ｇ  ｉｎ  ｔｈｅ  ｄｅｃｌｉｎｅ  ｏｆｃｏｍｍｕｎｉｃａｔｉｏｎ  ｑｕａｌｉｔｙ

， 
ｗｈｉｃｈ  ｓｅｒｉｏｕｓｌｙ  ａｆｆｅｃｔｓ


ｔｈｅ  ａｃｃｕｒａｃ
ｙ  ａｎｄ  ｃｏｎｖｅｒｇｅｎｃｅ  ｄｅｌａｙ  ｏｆ  ｔｈｅ  ｃｏｍｍｏｎ  ｓｔｒａｔｅｇｙ  ｓｏ  ｔｈａｔ

 ，
ａｃｃｕｒａｔｅ  ｔｒａｃｋｉｎｃａｎｎｏｔ  ｂｅ  ｒｅａｌｉｚｅｄ
ｇ 

．
Ｉｎｔｈｅ  ｔｒａｃｋｉｎｇ  ｎｅｔｗｏｒｋ  ｔｈｅ  ｍａｉｎ  ｆａｃｔｏｒ  ａｆｆｅｃｔｎｇ  ｔｈｅ  ｃｏｎｓｅｎｓｕｓ
，

 ｉ
ｃｏｎｖｅｒ
ｇｅｎｃｅ  ｄｅｌａｙ  ｉｓ  ｔｈｅ  ｃｏｎｎｅｃｔｉｖｉｔｙ  ｏｆ  ｔｈｅ ｎｅｔｗｏｒｋ  ａｎｄ  ｔｈｅ  ｅｎｅｒｇｙ

 ，
ｅｆｆｉｃｉｅｎｃｏｆ  ＵＡＶｓ  ａｒｅ  ａｌｓｏ ｔｈｅ  ｍｏｓｔ  ｂａｓｉｃｅｒｆｏｒｍａｎｃｅ  ｉｎｄｅｘ  ｉｎ  ｔｈｅ


ｙ ｐ
ｐｒｏｃｅｓｓ  ｏｆ  ｔｒａｃｋｉｎｇ  ａｎｄ  ｃｏｎｓｅｎｓｕｓ  Ｔｈｅｒｅｆｏｒｅ  ｔｈｉｓ  ｐａｐｅｒ  ｗｉｌｌ  ｓｔｕｄｙ  ｔｈｅ

 ．
，
ａｂｏｖｅ  ｉｎｄｅｘｅｓ  ａｓ  ｆｏｌｌｏｗｓ 

：
Ａｉｍｉｎｇ ａｔ  ｔｈｅ ｗａｙ  ｏｆ  ｉｎｃｒｅａｓｉｎｇ ｏｒ  ｄｅｃｒｅａｓｎｇ  ｎｅｔｗｏｒｋ  ｔｏｐｏｌｏｇｙ

 ｉ
ｅｄ
ｇｅｓ  ｔｏ  ｉｍｐｒｏｖｅ  ｎｅｔｗｏｒｋ  ｃｏｎｎｅｃｔｉｖｉｔｙ， 
ｗｅ  ｎｔｒｏｄｕｃｅ  ａ  ｒｅｌａｙ  ＵＡＶ  ｉｎｔｏ  ｔｈｅ
ｉ 

ｔｒａｃｋｎｇ  ｎｅｔｗｏｒｋ
ｉ
，  ｅｓｔａｂｌｉｓｈ  ａ  ｎｅｗ  ｎｅｔｗｏｒｋ  ｔｏｐｏｌｏｇｙ  ｕｐｄａｔｅ  ｍｅｔｈｏｄ  ａｎｄ

 ，
ｐｒｏｐｏｓｅａｓｃ
ｈｅｍｅｏｆ  ｒｅｌａｙ  ＵＡＶ  ｄｅｐｏｙｍｅｎｔ  ａｎｄ  ｔｒａｊｅｃｔｏｒ
ｌ
ｙ  ｐｌａｎｎｎｇ  ｂａｓｅ


ｄｉ
ｏｎ  ＤＱＮ  ａｇｏｒｉｔｈｍｌ．  Ｗｅ  ｄｉｖｉｄｅ  ｔｈｅｐｒｏｃｅｓｓ  ｏｆｄｅｐｌｏｉｎ
 ｙｇ  ｒｅｌａｙ 

ＵＡＶ ｉｎｔｏ  ｔｗｏ


ｓｔｅ
ｐｓ
．  Ｆｉｒｓｔｌ
ｙ， 
ａｄｅｐｌｏｙｍｅｎｔ ａｌ
ｇｏｒｉｔｈｍ  ｂａｓｅｄ ｏｎ  ＤＱＮ  ｉｓ
 ｐｒｏｐｏｓｅｄ ｏ ｏｂｔａｎ
ｔ 
 ｉ
ｔｈｅ ｎｉｉｔｉａｌｐｏｓｉｔｉｏｎｏｆ

 ｒｅｌａｙ

ＵＡＶ， 
ｗｈｃｈ  ｏｐｔｉｍｚｅｓ  ｔｈｅ  ｅｎｅｒｇｙ  ｃｏｎｓｕｍ
ｉｉ
ｐ
ｔｉｏｎ


ａｎｄ ｃｏｎｓｅｎｓｕｓ  ｃｏｎｖｅｒ
ｇｅｎｃｅ  ｄｅａｙ  ｏｆ  ｒａｃｋｎｇ  ｎｅｔｗｏｒｋ  Ｓｅｃｏｎｄｙ  ｉｎ  ｔｈｅ


ｔｌｉ．ｌ
，
ｐｒｏ
ｃｅｓｓｏｆ  ｔｒａｃｋｎｇ  ｔｈｅ  ｍｏｖｅｍｅｎｔ  ｏｆ
ｉ  ＵＡＶ  ａ，
ｔｒａｅｃｔｏｒ
ｊｙ  ｐａｎｎｎｇ  ａｇｏｒ
ｉｌｌｉｔｈｍ


ｂａｓｅｄｏｎＤＱＮ ｉｓ
ｐｒｏｐｏｓｅｄ  ｗｈｃｈ ｅ
ｆｆｅｃｔｖｅ
ｙ  ｍｐｒｏｖｅｓ  ｔｈｅ  ｃｏｎｓｅｎｓｕｓ
，
ｉ 
 ｉｌｉ
ｓｕｃｃｅｓｓ
ｐｒｏｂａｂｉｌｉｔ
ｙ  ｏｆｍｕｌｔｉ
－
ＵＡＶｓ  ｔｒａｃｋｎｇ  ｎｅｔｗｏｒｋ  ａｎｄ  ｒｅｄｕｃｅｓ  ｔｈｅ
ｉ 

ｉｎｔｅｒｒｕｐｔｏｎ  ｐｒｏｂａｂｉｉｌｉｔ
ｙ ｏｆ ｍｕｌｔｉ
－
ＵＡＶｓ  ｔｒａｃｋｉｎｇ ｎｅｔｗｏｒｋ． Ｓｉｍｕｌａｔｉｏｎ


ｒｅｓｕｌｔｓｓｈｏｗ ｔｈａｔ ｏｕｒａｌ
ｇｏｒｉｔｈｍ  ｈａｓ  ｂｅｔｔｅｒ  ｐｅｒｆｏｒｍａｎｃｅ  ｔｈａｎ  Ｑ－
ｌｅａｍｉｎｇ


ａｏｒｈｍ  ａｎｄ ｒａｎｄｏｍ ｌｏｃａｔｉｏｎ ｄｅｍｅｎｔａｇｏｒｈｍ
ｐｏｙ
ｔｔ
ｇｌｌｉ
ｌｉ 

．
Ａｉｍｎｇ  ａｔ  ｔｈｅ  ｗａｙ  ｏｆ
ｉ ｉｎｃｒｅａｓｎｇ  ｏｒ  ｄｅｃｒｅａｓｉｎｇ  ｔｈｅ  ｎｅｔｗｏｒｋ  ｔｏｐｏｏｇｙ
ｉ

 ｌ
ｗｅｇｈｔｔｏｉ  ｉｍ
ｐｒｏｖｅ  ｔｈｅ  ｎｅｔｗｏｒｋ  ｃｏｎｎｅｃｔｉｖｉｔ
ｙ ｗｅｐｒｏｐｏｓｅ ａ ｊｏ
，
ｉｎｔ


ｏｐｔｍｚａｔｏｎ ｓｃｈｅｍｅｏｆｍｕｌｔｉ
ｉｉｉ 
－
ＵＡＶｓ  ｔｒａｊｅｃｔｏｉｙ  ａｎｄ
 ｐｏｗｅｒａｌｌｏｃａｔｉｏｎ  ｂａｓｅｄ


ｏｎ  ＭＡＤＱＮ  ａｌＤｕｅｏｔｈｅｎｏｎ
ｇｏｒｉｈｍｃｏｎｖｅｘｉｔ
ｙｏｆｈｅｏｉｎｔ  ｏｐｔｉｍｉｚａｔｉｏｎ


－
ｔ．  ｔｔ 
 ｊ
ｙ  ｏｆ  ｅａｃｈ  ＵＡＶ  ｉｓ  ｄｅｅｒｍｎｅｄ
ｔ ｔｈｅ ｕｔ
ｐｒｏｂｅｍ ａｎｄ ｃｏｎｓｉｄｅｒｉｎｇ  ｈａ 

ｌｔｉｌｉｔｔｉ
ａｃｃｏｒｄｉｎ
ｇ ｏｔｈｅｎｅｗｏｒｋ  ｅｎｖ
ｔｔｉｒｏｎｍｅｎｔａｎｄ ｔｈｅ ｂｅｈａｖｉｏｒｏｆｏｔｈｅｒ  ＵＡＶｓ， 
ｗｅ


ｃａｎｍｏｄｅｌｔｈｅ
 ｐｒｏｂｌｅｍ  ａｓ  ａ ｒａｎ
ｄｏｍ
 ｇ
ａｍｅ
 ｐｒｏ
ｂｅｍｌ．  Ａｉｍｉｎｇａｔｔｈｅｐｒｏｂｅｍ

 ｌ
ｏｆｈｉｈ  ｃｏｍｕｔａｔｉｏｎａｌ  ｃｏｍｌｅｘｉｔ
ｇ
ｐｐｙ  ｃａｕｓｅｄ  ｂｙ  ｃｏｎｔｉｎｕｏｕｓ  ａｃｔｏｎ  ｓｐａｃｅ  ａｎｄ

 ｉ
ａｒ
ｇｅ  ｓｔａｔｅ  ｓｐａｃｅ  ＭＡＤＱＮ ａｇｏｒｔｈｍ ｉｓ  ｐｒｏｐｏｓｅｄ  ｔｏ  ｓｏｌｖｅ  ｔｈｅ ｏｐｔｉｍａｌ
ｌｌｉ
，
ｓｔｒａｔｅ
ｇｙ  ｏｆ  ｈｅ  ｐｒｏｂｌｅｍ Ｓｉｍｕａｉｏｎ  ｒｅｓｕｌｔｓ  ｓｈｏｗ  ｈａｔ  ｏｕｒ  ａｌｇｏｒｉｔｈｍ  ｈａｓ
ｔｌｔｔ． 

ｏｂｖｉｏｕｓ  ａｄｖａｎｔａｇｅｓ  ｏｖｅｒ  ｏｔｈｅｒ  ａｌ
ｇ
ｏｒｉｔｈｍｓ  ａｎｄ ｅｆｆｅｃｔｖｅｙ  ｒｅｄｕｃｅｓ  ｔｈｅ
，

 ｉｌ
ｃｏｎｓｅｎｓｕｓ ｃｏｎｖｅｒｇｅｎｃｅ ｄｅｌａｄ  ｎｅｔｗｏｒｋ  ｅｎｅｒ
ｙ  ａｎｇｙ  ｃｏｎｓｕｍｐｔｉｏｎ 

．
Ｉｎｖｅｗｏｆｔｈｅ ｓｅｃｉｆｃｒｅａｓｏｎｓｗｈ
ｙ ｃｈａｎｇｉｎｇｔｈｅ  ｎｅｔｗｏｒｋｃｏｎｎｅｃｔｉｖ
 ｉ
ｐ  ｉ 

 ｉｔ


ｙ
ｃａｎ  ｒｅｄｕｃｅ  ｔｈｅ  ｃｏｎｓｅｎｓｕｓ  ｃｏｎｖｅｒ  ｄｅａｙ  ｗｅ  ｅｘｐｌａｉｎ  ｔｈｅ  ｎｅｔｗｏｒｋ


ｇｅｎｃｅ
ｌ
，
ｃｏｎｓｅｎｓｕｓ
 ｐｒｏｂｌｅｍ  ｆｒｏｍ  ｔｈｅ  ｐｅｒｓｐｅｃｔｉｖｅ  ｏｆ  ｇｒａｐｈ  ｔｈｅｏｒｙ  ａｎａｙｚｅ  ｔｈｅ

 ，
ｌ
ｎｅｔｗｏｒｋ  ｃｏｎｎｅｃｔｉｖｉｔｙ  ａｎｄ  ｇｉｖｅ  ｔｈｅ  ｓｐｅｃｆｉｃ  ｒｅａｓｏｎｓ  ｗｈｙ  ｔｈｅ  ｆ
，
ｉｉｒｓｔｔｗｏ


ｐｒｏｐｏｓｅｄ  ｓｃｈｅｍｅｓ  ｃａｎ  ｉｍｐｒｏｖｅｈｅ  ｃｏｎｓｅｎｓｕｓ  ｃｏｎｖｅｒｇｅｎｃｅ  ｄｅａｙ  ｉｎ  ｄｅｔａｉｌ
ｔｌ 

．
Ａｔ  ｔｈｅ  ｓａｍｅ  ｔｉｍｅ  ｔｈｅｙ  ａｒｅ  ｓｉｍｕｌａｔｅｄ ｒｅｓｅｃｔｖｅｌｙ  ａｎｄ ｔｈｅ  ｓｉｍｕｌａｔｉｏｎ
，
ｐ 
 ｉ
，
ｒｅｓｕｖｅｒｉｆｙ  ｏｕｒ  ａｎａｌ
ｙｓｉｓ
ｌｔｓ 

．
Ｔｏ  ｓｕｍ  ｕｐ， 
ｔｈｉｓ  ｐａｐｅｒ  ｍａｉｎｌｙ  ｓｔｕｄｉｅｓ  ｔｈｅ  ｔｗｏ  ｐｅｒｆｏｒｍａｎｃｅ  ｉｎｄｉｃａｔｏｒｓ


ｏｆ  ｎｅｔｗｏｒｋ  ｃｏｎｓｅｎｓｕｓ  ｃｏｎｖｅｒｇｅｎｃｅ ｄｅｌａｙ  ａｎｄ  ｅｎｅｒｇｙ  ｅｆｆｉｃｉｅｎｃ
ｙ  ｉｎ  ｔｈｅ


ｔｒａｃｋｉｎ
ｇ  ｓｃｅｎａｒｉｏ， 
ｍａｋｅｓ  ｔｈｅ  ｃｏｒｒｅｓｐｏｎｄｉｎｇ  ａｎａｌｙｓｉｓ  ｆｒｏｍ  ｔｈｅ  ｐｅｒｓｐｅｃｔｉｖｅ


ｏｆ  ｎｅｔｗｏｒｋ  ｃｏｎｎｅｃｔｉｖｉｔｙ  ａｎｄ  ｕｔｓ  ｆｏｒｗａｒｄ  ｔｗｏ  ｏｔｉｍｉｚａｔｉｏｎ  ｓｃｈｅｍｅｓ


ｐ，ｐ
ｒｅｓ
ｐｅｃｔｉｖｅｌｙ．  Ｔｈｅ ｆ
ｉｘｔｕｒｅ  ｒｅｓｅａｒｃｈ  ｄｉｒｅｃｔｉｏｎｓ  ａｒｅ
 ｐｒｏｓｐｅｃｔｅｄ 

．
ＫＥＹ  ＷＯＲＤＳ：  Ｍｕｌｔｉ－
ＵＡＶｓ  ｔｒａｃｋｉｎｇ  ｎｅｔｗｏｒｋ  Ｃｏｎｓｅｎｓｕｓ  ｃｏｎｖｅｒｇｅｎｃｅ
，


ｄｅｌａｙ， 
Ｐａｔｈ  ｐａｎｎｎｇ
ｌｉ
， 
Ｅｎｅｒｇｙ  ｅｆｆｉｃｉｅｎｃ
ｙ  ｏｐｔｉｍｉｚａｔｉｏｎ， 
Ｄｅｅｐ 
ｒｅｉｎｆｏｒｃｅｍｅｎｔ


ｌｅａｒｎｉｎｇ  ａｌｇｏｒｉｔｈｍ


目 

录
第章绪论
一
 

１
１．１研究背景及意义  

１
１．１．
多无人机集群追踪网络概述
〗  

１
１．１２基于共识策略的分布式协同估计在追踪网络中的研究
．．．．．．．．． 

２
１．
１．
深度强化学习
３  

２
１．１．４研宄意义  

２
１．２国内外研究现状  

３
１．３论文主要内容及创新点  

５
１．４论文结构安排  

６
第二章基于ＤＱＮ算法的中继无人机部署与轨迹规划方案  

９
２．
系统模型
１  

９
２部署模型．１．１  

９
２丄２信道模型  １ 

０
２．１．３共识能耗模型－
 １１


２．１．
共识概率模型
４屮断－
 １ 

３
２２．
问题构建   １ 

４
２．２共识收敛时延和能耗的折中
．１  １ 

４
２．２２追踪网络中的共识和中断概率
．
 １ 

５
２．３基于ＤＱＮ的中继无人机初始化部署算法  １ 

５
２３．．１ 算法
ＤＱＮ   １ 

６
２３２
．．
算法模型定义  １ 

６
２３．．３算法流程描述  １ 

７
２３４
．．
算法具体训练流程  ２０


２３．．５算法具体实现流程  ２２


２４．
基于ＤＱＮ的中继无人机轨迹规划算法  ２３


２４．．１算法模型定义及流程  ２３


２４２
．．
算法具体实现流程  ２５


２．５仿真结果与分析  ２５


２５．．１仿真场景  ２６


２５２
．．
仿真结果及分析  ２６


２本章小结
．６  ２ 

８
第三章基于ＭＡＤＱＮ算法的多无人机轨迹和功率分配联合优化方案


 ２９


３．１系统模型  ２９


３．１．１部署模型  ２９


３．
１．２多无人机追踪模型  ３０


３．１．３信道模型  ３ 

１
３丄４离散共识算法模型  ３２


３．１．５能耗模型  ３３


３．２问题构建  ３３


３．３基于ＭＡＤＱＮ算法的多无人机轨迹及功率联合优化算法．．．．．．．３４



３．３．１
博弈论基础  ３５


３．３．２基于ＭＡＤＱＮ算法的联合优化博弈问题及模型定义  ３５


３．３．３算法流程描述  ３７


３．３．４算法具体训练流程  ４０


３．
４仿真结果与分析  ４ 

１
３．４．１仿真场景  ４２


３．４２．
仿真结果及分析  ４２


３．５本章小结 …  ４４


第四章多无人机网络中共识收敛时延分析  ４５


４．１共识收敛时延的影响因素分析  ４５


４．
１图论基础
．
１  ４５


４．１．２网络中的共识问题  ４６


４．１．
共识算法的收敛性分析及性能仿真
３  ４７


４２．
改变网络连通度的方案分析  ５０


４２．．〗增减拓扑边中继无人机部署方案  ５０


４２２
．．
增减链路权重功率分配方案  ５ 

１
４３．
仿真结果及性能评估  ５２


４４．
本章小结   ５３


第五章总结与展望  ５５


５研究内容总结
．１  ５５


５２后续工作展望
．  ５６


参考文献  ５９



第一
章绪论 


第一
章绪论


本章首先对论文的研究背景进行了介绍，内容包括多无人机集群追踪网络的


概述、基于共识策略的分布式协同估计在追踪网络中的研究及研宄意义。其次 

，
对国内外研究现状进行了介绍同时阐述了本论文的主要研宄内容及相应的创新

 。
点。
最后说明了论文的结构安排 

。
１．１研究背景及蚊


１．１．１多无人机集群纖网络雛


近年来，无人机由于其通用性、灵活性和相对较低的运行成本，在某些军事


或民用领域受到广泛关注根据ＢＨｎ。ｔｅｌｌｉ
ｇｅｎｃｅ的报告预计，
２０２１年将有超过２９００


万架无人机投入使用预计到，
２０２５年，
无人机必将在军民领域得到广泛应用Ｗ 

。
同时，在未来的移动通信技术中，我们不仅将在地面部署更密集的通信基站， 

而
且还将合理利用三维空间部署空中通信基站从而缓解地面通信基站的过载问题

 ，
［
２］


。
在下个十年里无人机将小型化智能化和集群化在Ｇ及以上无人机


一
，、。５
通信的最新进展和未来趋势报告中提到了将来关于无人机通信的几大趋势其中

 ，
基于多无人机的集群网络［
３］
，即可扩展的多无人机网络，得益于其高流动性和快


速供应的特点己经成为了种快速有效的恢复和扩展通信的可行解决方案 

受
一
，，
到了极大的重视［
４］


。
目前，随着科技的不断发展和进步，无人机将被应用在很多场景，如搜索救


援、野火监测、目标监控、目标追踪和武装打击等［
５］
。在最具未来感的场景中 

，
无人机应该能够通过使用新的网络技术和协议，自主操作、相互协调以及与部署



的基础设施协调。这些自治系统的潜在应用领域包括敏感区域的监控、追踪、


货
物和辅助材料的交付、基础设施检查和娱乐等。其中，
无人机的很多任务中都包


含了标追踪其将成为无人机的关键应用场景之其主要任务是通过将目标


一
目，，
保持在其视野内来跟踪地面上的移动目标。相比于单无人机追踪，
多无人机协同


完成追踪任务受到了广泛关注，可见，在无人机蜂群进行运动多目标追踪的研究



中基于多无人机协同执行作战任务的集群化追踪网络将成为个重要的发展趋


一
６］
势［


。


１

北京邮电大学工学硕士学位论文 


１．１．２基于共识策略的分布式协同估计在追踪网络中的研究


在多无人机协同追踪网络中，分布式协同估计方法越来越受到重视。
分布式


协同估计是分布式信号处理的个分支即分布式网络中多个代理通过与相邻代


一
理的信息交互完成对共同标参数的协同估计与传统的集中式估计方法不同
［
７］
目。 

，
分布式协同估计方法不需要融合中心每个传感器节点只需要与满足通信条件的

 ，
相邻节点通信即可［
８］


。
在多无人机目标追踪任务中有效的分布式协同估计算法可以使得当其中


一
个无人机节点发生故障时，通过与其他相邻节点的信息交互，追踪任务也可以完



成。其中，在分布式协同估计算法中，多智能体共识策略就是解决分布式协同估


计问题的种重要方法在涉及多智能体系统的应用中多个代理需要就某些感


一
。，
兴趣的量达成
一
致。这样的量可能与单个作用物的运动有关，也可能与之无关 

。
因此，在链路失效和创建（即可变网络拓扑）下，解决具有定向信息流的动态代



理网络的
一
般形式的协议问题是很重要的。近年来，越来越多的学者对多智能体


共识策略及其应用进行了研究［
９］


。
１．１．３深度强化学习


近几十年来，机器学习在无线通信网络中得到了广泛的关注，强化学习算法


已广泛应用于人工智能和无线通信领域［
１Ｇ］
，且已经被证明具有解决无人机无线网


络问题的能力［
１１
］
。
其中深度强化学习在最近的
一
些游戏任务上表现出优异的性能 

，
提供了
一
个很有前途的解决方案［
１２］
，它使用强大的深层神经网络来指导决策很

 ，
好地处理了复杂的状态空间和时变的环境，且在许多学习任务中，即使是零域知



识也能提供最先进的性能。在无人机网络场景下，针对无人机的离散动作空间以



及大状态空间导致的计算复杂度高的问题深度强化学习是种很好的解决方案


一
３］
同时在面对些组合性及非凸性问题其依旧也表现出了良好的性能
１一
［
，


。
，
１．１．４研究窻义


在分布式多无人机集群化的追踪网络中无人机之间准确及时的信息交互是

 ，
准确追踪标的关键要实现这标个重要的前提是无人机之间能够进行


一
一
目，目，
良好的通信和协作。在复杂的战场环境中信道环境通信链路也是复杂多变的，、 

，
随着无人机机群数量的増多，信息共识的路径也变得复杂，接收到的信息可能会



有定的时延同时由于无人机的高速移动和通信范围受限的问题多无人机集


一
。，
群的拓扑结构实时变化，在这些情况下，无人机之间的连通性容易受到这些时变


信道参数的影响，导致无人机之间的通信质量下降，会严重影响网络性能， 

无法


２
第章绪论
一




实现精准的共识和目标追踪，甚至导致目标丢失。因此，集群化的无人机组网策


略将面临挑战。
其次，由于无人机的电池电量有限，使得多无人机追踪网络的网


络寿命大打折扣，所以，如何保证在复杂战场下多无人机网络的稳定性，延长多


无疑是项既有理论意义又有实用价值的课题
４］
无人机追踪网络的网络寿命
１
一
［
， 

。
１．２国内外研究现状


由于部署的灵活性和高机动性，
无人机可以提高蜂窝网络的性能，目前有很


多研宄集中在多无人机网络来辅助蜂窝网络的研究上文献作者主要研究


５］
中
１
［
，，
了无人机协同地面蜂窝网络，其中多个无人机作为

一
对地面用户之间的中继。 

基
于信噪比，提出了两种无人机选择策略，优化了整个系统的中断概率、吞吐量和



覆盖概率。文献［
１６］
中，作者提出了
一
种基于最大化用户平均意见得分、无人机三


维部署和动态运动联合问题提出了种三步法来实现多无人机的三维部署和动


一
态运动文献作者提出利用深度强化学习进行无人机控制并提出了 

种
７］
中
一
１
［
。，
，
基于深度强化学习的覆盖与连接节能控制方法有效提高了多无人机的覆盖率但

 。
这些论文大都是考虑利用多无人机网络来提升蜂窝网或地面用户的某些性能指



标，没有论文专门研究移动多无人机网络的特性 

。
在基于共识策略的网络研究上，分布式多无人机目标追踪过程中，
无人机之


间的通信时延会增加共识算法的估计误差文献
８】
中作者为了减轻这问题对


１一
［
，，
估计算法的影响，提出了
一
种具有通信时延信息补偿的估计算法。
首先，利用滤


波器对各无人机的通信时延信息进行预测，得到补偿后的信息。此外，利用共识


得到了通信时延信息补偿的估计算法文献作者开


９］
算法结合卡尔曼滤波中
１
［
。，
，
发了种用于分散共识优化的阶算法该算法比当前最先进的算法更节能 

有
一
一
，，
效的解决了代理的电池能量有限的情况文献作者研究了具有切换拓扑的


２Ｇ］
。
［
中，
般线性多智能体系统的保成本的共识问题其中考虑了联合连接和连接切换拓


一
扑。文献［
２１
］
中，作证提出了
一
种分层结构来解决多智能体系统的共识问题。
新方


案将代理分为几个组，
每个组包含
一
个关于组内代理的所有状态的值，我们称之


为组信息。对于每个单独的代理，它不仅接收来自其组内邻居的代理信息，还接


收来自其相邻组的组信息证明了该方案在离散时间和连续时间。内都能达到全局


共识 

。
在共识策略的收敛性问题上，在多变的复杂信道中，时变连通性是多无人机


追踪网络面临的主要挑战之文献作者针对存在编队控制律精度低 

收
２２］
中
一
［
，，、
敛时间长等问题设计了个基于拓扑优化的分散共识来控制多径衰落信道中的


一
多无人机系统提出了种队形结构重构方案和种传输功率分配算法以保证


一
一
，
，


３



在有限的收敛时间内控制精度文献作者提出了种贪婪扰动启发式 


依
２３
中
一
［］
。，，
赖于系统的全局知识来确定与代数无人机连通性相关的特征向量设计了种基


一
于分散向量的连通性跟踪算法有效提高了追踪网络的连通性文献

２４
Ｆｅｄｌｅｒ
［ 

］
ｉ，。
中，
作者提出了基于懒惰和渴望共识的算法来实现群体范围的数据共享，
采用单


的最佳发射机选择在收敛速度和有效载荷成本之间达成个有益的折衷 

文
一
一
，。
献作者研究了离散积分系统中具有非均匀非对称和时变时滞的多智能体


２５
［］
中，、
系统的平均共识问题提出了种受限传输和同步算法即使在存在不对称 


非
一
，，、
均匀和时变延迟的情况下也能实现良好的平均共识性来测量和减少通信时延，，


。
目前这些研究多集中于从无人机的控制层面解决共识收敛问题没有论文从网络


 ，
层面来解决这些问题 

。
在共识策略的能量消耗问题上文献作者设计了种共识策略该策



２６］
中
一
１
，，，
略能很好地适应资源的分布特点，有效平衡了系统功率不平衡，保证了功率不平


衡任务分配的公平性能够适应用户的不确定性文献作者针对无线传感



２７］
，。
［
中，
器网络中节点功率受限的问题，基于Ｏｌｆａｔｉ
－
Ｓａｂｅｒ提出的分布式共识滤波算法和


种随机图的站点渗流模型提出了种新的能量有效的分布式共识滤波算法
一一
， 

，
有效地降低了节点能量消耗从而大大延长了无线传感器网络的寿命文献

２８］
中
［
，。 

，
作者将基于共识算法应用到无人机无线网络中，在全局得分最大化的情况下， 


建
立可行的无冲突的无人机并行能量传输和信息采集任务调度方案。
文献［
２９］
中， 

作
者开发了种用于分散致性优化的阶算法它通过图中的个行走系列



一一一一一
，（
节点传递个标记行走期间访问的代理计算其私有函数的梯度并更新令牌

一
）。， 

。
仿真表明该算法比目前最先进的算法更节能。目前没有研究讨论基于共识策略的



多无人机网络中的网络能耗问题 

。
在用强化学习解决无人机网络的问题上文献作者提出了种基于强


３
中
（）一
［］
，，
化学习和深度强化学习的无人机中继方案。

在这两种算法的帮助下，
无人机的能


量消耗最小化，
同时获得更好的误码率（ＢＥＲ）性能。
文献中，
作者研究了无


人机网络执行遥感任务的场景。在其模型中，
无人机分为中继无人机和传感无人


机两类。考虑到无人机之间的通信可能不可行或不可靠，
无人机在本地决定是否


需要参与中继或感知作者开发了种分布式机制利用强化学习算法学习最优



一
，，
任务分配文献作者针对蜂窝连接的无人机网络提出种基于深度强



３２］
中了
一
［
。，，
化学习的干扰感知路径规划方案，该方案实现了更好的无线延迟和传输速率。



文
献［
３３］
中，为了支持动态用户分组并为网络设计带来更大的灵活性，作者利用深度


强化学习的方法，
联合设计了无人机的轨迹和功率分配，以服务于静态非正交多


址（ＮＯＭＡ）用户。研宄了将ＮＯＭＡ技术集成到无人机网络中的设计挑战， 


同


４
第章绪论
一
 


时也强调了些有待解决的研究问题文献中作者通过联合考虑通信覆盖率
一
［
３４］
。， 

、
公平性能耗和连接性调用了种深度强化学习ＤＲＬ算法对无人机进行



一
、，（），
节能控制的是找到种控制策略指定每个无人机在每个时隙中的移动方式

一
。目， 

，
因此，四个参数：平均覆盖分数、公平性指数平均能耗和能源效率被联合优化、 


。
目前没有研究讨论基于共识策略的多无人机网络及多无人机的动态规划问题 

。
１．３论文主要内容及创新点


本论文的研究内容及研究框架如图所示 

：
绪论


背票及ｗ穷現状遲研


  寺 



语究内容


＾ａａｉ  ｉｓｓｉ銳
習


纖

｜［Ｉ丨
、ｉ  

ｉ
点主要毯新產  刽新点


Ｊ
ｆ
￣
：
１Ｌ  ：
 ｖ ？ ｙ ？ ｆ ？


 ．
１
ｋ
Ｉ


？
炉叫  提给了


氣 提ｓ了 
—
粋当


网雜
 爲Ｐ  白子亲合


％Ｍ  ｗ  ｌ｜ｆ  普子  公審｜  分碰
图

 ｎ
：
Ｓ 的算法  移劫  ＭＡＤＱＮ  了改变网


？ｍｓ７３
ｌ
ｊｐ通
人 Ｄ
ｔ
０ＯＮ 茨 
ｍｍｍ  ２５ａＳ？ｉ
妄 
  ＾  
占部宝择六 Ｓ
ＩＶ＝ｒ
ｉ？


以
釣中继  分髮蔡合 
＾
给鍾  元人机   ｍｊｍ 

．
ｍＳ  旗 緊！

 々ｊ／３ 

英
￣￣
￣￣
 ￣￣  ￣
￣￣
Ｉｒ １  Ｉ１
  Ｉ  

ｉ


？
图ｌ
－
ｉ研究内容及框架图


在多无人机的追踪场景下，
无人机之间准确、及时的信息交互是准确跟踪 

目
标的关键，其中分布式协同估计方法越来越受到人们的重视，
多智能体共识算法


是其中的种重要方法本文主要研究基于共识策略的多无人机组网通过加入


一
，，
中继无人机、优化中继无人机的部署与轨迹、优化追踪无人机的功率分配、优化


追踪无人机轨迹等多种方案通过改变整个追踪网络的网络连通度来对整个网络

 ，
进行优化，
从而实现在追踪场景下对目标的精确共识和追踪 

。


５



ａ
）本文以增减拓扑边的方式改变网络连通度的主要贡献如下 

：
提出了个新的网络框架将中继无人机作为个新的节点部署到


一一
１．
，
多无人机追踪网络来改变当前网络拓扑结构 

。
提出了种基于ＤＱＮ的算法来获得中继无人机最优的初始位置
一
２． 

。
提出了种当追踪无人机开始追踪移动时基于ＤＱＮ算法的中继无


一
３．
，
人机轨迹规划方案 

。
ｂ）本文以增减拓扑权重的方式改变网络连通度的主要贡献如下 

：
提出了种基于ＭＡＤＱＮ算法的多无人机轨迹和功率分配联合优化


一
１．
方案 

。
由于联合优化问题的非凸性提出了种随机博弈的建模方式并用


一
２．
，
ＭＡＤＱＮ算法求解该问题的最优策略 

。
最后本文以图论的角度分析了网络共识及网络连通度，并分析和验证了以


上改变网络连通度方案的有效性 

。
１．４论雄构安排


本文针对多无人机追踪场景下的网络共识、无人机能效问题进行了研究， 

通
过对共识收敛时延的影响因素分析及对多无人机组网场景的建模分析了追踪场

 ，
景下无人机系统共识及能效优化的方向并提出了相应的策略。全文共分为五章 

，
结构安排如下 

：
第章绪论本章首先对论文的研宄背景进行了介绍内容包括多无人机


一
：。，
集群追踪网络的概述基于共识策略的分布式协同估计在追踪网络中的研宄及研
、 

宄意义进步对国内外研宄现状进行了详细地介绍阐述了本文的主要研究


一
。，。
工作内容及相应的创新点。最后说明了论文的结构安排 

。
第二章：基于ＤＱＮ算法的中继无人机部署与轨迹规划方案。
本章详细介绍


了改善多无人机之间信息共识收敛时延以及多无人机能效的第种策略方案在



一
该方案中我们提出了种通过部署中继无人机来改善多无人机追踪网络的连通


一
度和共识性能的方法。我们将部署中继无人机的过程分为两个步骤。首先，提出


了基于ＤＱＮ的部署算法来获取中继无人机的初始位置，优化了追踪网络的能量


消耗和共识收敛时延。
其次在追踪无人机的运动过程中我们提出了基于
，，ＤＱＮ


的中继无人机轨迹规划算法。仿真结果表明，与现有算法相比，基于ＤＱＮ的算


法具有更好的性能同时验证了我们的方案能有效地提高了多无人机追踪网络的
， 

共识成功概率，降低了多无人机跟踪网络的中断概率 

。


６
第章绪论
一




第三章：基于ＭＡＤＱＮ算法的多无人机轨迹和功率分配联合优化方案。


本
章详细介绍了改善多无人机之间信息共识收敛时延以及多无人机能效的第二种


策略方案在该方案中我们提出了种联合优化多追踪无人机轨迹及每架无人


一
。，
机功率分配的方法结合多代理深度强化学习算法通过在定范围内限制追踪


一
，，
无人机的轨迹并且学习最优的功率分配方案来优化追踪网络的能量消耗和共识


收敛时延。
仿真结果验证了我们的方案 

。
第四章：
多无人机网络中共识收敛速度分析，本章详细介绍了影响多无人机


之间信息共识收敛时延的影响因素并且详细分析了前两章提出的方案之所以能
， 

提升和改善共识收敛时延的具体原因最后进行了仿真验证了我们相应的分析
。， 

。
第五章：总结与展望。
本章对全文所研宄的全部工作进行了总结，同时对未


来的研宄工作进行了展望可以为后续进步的研究提供建议和参考

一


。
，


７
北京邮电大学工学硕士学位论文
 




８

第二章基于ＤＱＮ算法的中继无人机部署与轨迹规划方案 


第二章基于ＤＱＮ算法的中继无人机部署与轨迹规划方案


在多无人机的追踪场景中，由于无人机的高速移动和通信范围受限的问题 


，
无人机之间的通信链路容易被频繁打断造成多无人机协作追踪时对多个移动，



目
标无法精确共识，同时，随着无人机机群数量的增多，信息共识的路径也变得复



杂接收到的信息可能会有定的时延
一
，


。
本章介绍了改善多无人机之间信息共识收敛时延以及多无人机能效的第


一
种策略方案在该方案中我们提出了种基于ＤＱＮ算法通过部署中继无人机



一
。，
来改善多无人机追踪网络的连接度和共识性能的方法首先针对多无人机追踪场

 。
景，我们建立了系统模型，其中包括部署模型、信道模型、共识能耗模型以及共

 －
识中断概率模型其次引入架中继无人机利用ＤＱＮ算法找到满足最优共



一
。，，
识时延和能耗的中继无人机的轨迹部署方案主要分为两个个阶段阶段 

当
一
。，：
初始化追踪无人机的分布时，找到最优中继无人机的起始位置。阶段二：当追踪



无人机开始追踪任务时基于追踪无人机的动态轨迹进行相应的中继无人机轨迹

 ，
部署。
最后通过仿真对我们的方案进行了验证 

。
２．１系统模型


２１．．１部署模型


ＲｅｉａｙＵＡＶ


ＴｒａｃｋｉｎｇＵＡＶ


尤
．
贫 ｆ
（
之


十 
（
、


ｒ
。
。
以
Ｘ丄Ｔ
。
＇
＇
＇
ｊ 

＇
 ＼４
 ｉ Ｙ
 、  ？
 
＿ 、
＼
、


＼ 

■
Ｋ
＾ 
 

！
、
？
－
匕
＇
、
ｒ
ＶＶ 

ｎ
Ｔａｃｋｎｇｔａｇｅｔ  ， 
￣
￣
ｒｒ、
ｉ
 １  

ｉ
Ｃｏｎｔｒｏ ｃｅｎ
ｌ
ｔｅ 

ｒ
图２－
１
部署场景图


在追踪场景中我们考虑在个地理区域内部署由Ｗ架追踪无人机的集合



一
＃Ｖ和架中继无人机组成的多无人机追踪系统在该系统中追踪无



一
＝
２
■
 １．．．  。，
，
［｝


９




人机和中继无人机分别以速度在同高度飞行每架追踪无人机负责追踪相



一
Ｖ；；。
应的追踪目标，
并将追踪信息传输给相邻的无人机，以完成信息共识。
本文假设


追踪目标是随机移动的，所以追踪无人机的轨迹也是随机的。
中继无人机则根据


追踪无人机的地理位置和当前网络的性能需求飞到相应的位置，以适应和改变当


前多无人机追踪网络的网络传输性能其主要影响网络连通度以及信息共识的方


 ，
式如图所示是我们的场景部署图我们假设有个中央控制中心可以收


一
２
－
。１，，
集所有追踪无人机的位置状态信息并能够发送命令要求中继无人机可以移动到


 ，
合适的位置 

。
， －
一


－
 ／＼


一
一？
一
产 Ｖ


？


－
一一



图２－
２无人机网络拓扑图


该系统中所有无人机之间的网络拓扑可以表示为个有向图Ｇ
一


＝

其中ｊ＝ 表示为该图的邻接矩阵，
并且邻接元素满足ａ２０ 

，
Ｆ
叫表示由Ｖ架追踪无人机和架中继无人机组成的集合Ｅ为每


一

＝
１
，
２Ｔｉ？，
对节点之间边的集合，
节点的邻居节点集合／，可以表示为


其中 

：
ｌ
，
ｖ，
ｖｅ 

￡
Ｊ）

，
（
ｖ ’
＾  ２
＝－
１
（ 

）
＼
０，  ｏｔｈｅｒｓ


２．１．２信道模型


本文假设网络的传输带宽为６Ｈｚ，时间间隔Ｔ被划分为ＴＶ
，
个时隙其中每个

 。
时隙的长度是同时本文还假设无人机之间的通信信道为１０５ 


信
道，考虑自由空间损耗模型，因此本文定义信道系数为 

：
ＡＭ＝￣￣
ｎ （２－
２）
－￣￣
ｒｎ
… …
，
，


 ｒ１
小ＷＷ十乂
ｒ
＋


－
ＬＪ
ａＪ
其中《表示时隙，
／
？
。
表示在名＝
ｌｍ时的信道系数，其中名为固定常数 

。
２＇＇
ｄ［
？］＝
ｙ
ｘ［
ｒｉ
＼
－
［
？］  ＋＞［
？｜
－
乃［
？］表示在时隙３下无人机之间的距离。


考
ｙ
ｊ＼］＾］
，
］
＿
１ 

０



虑使用同信道资源的多个无人机之间存在干扰因此通过信道建模可以计算


一
出每条链路的相应的仰Ｖ可以表示为ｉ？ 

：
１２，
… …
，
Ｎ ｔ（
２－
３


）
匕物々［啦Ｗ々
＋


？
其中凡为无人机的传输功率／，
＆是对无人机产生干涉的无人机／
＿
／的传输功率 

，
为高斯方差表示网络的传输带宽表示接收无人机处的加

？
４
＝
 ５＃。，
其中５，ｉＶ
。


性高斯白噪声（ＡＷＧＮ）的功率谱密度当两架追踪无人机之间。ＳＩＮＲ满足％ 
＞ 

％
时，表示该无人机和无人机；
＿／
之间可以进行通信，
以此类推，可在追踪无人机


之间建立网络拓扑其中＆表示满足可通信范围，内ＳＩＮＲ的最小值为固定常数， 

。
在每个时隙中，
无人机的有效平均数据速率可以表示为
ｆ 

：
丄Ｖ

ｆ 
ＴＡ
ｎ＝ｌ
［

ｎ
＼  上Ｎ
ｔ 
ｎ＝ 

＼
１〇ｇ
ｚ ＋ ［
Ｗ
Ｄ  （
２４）


＿
基于获得的平均速率，我们可以计算得到无人机和无人机ｆ
＿／之间的通信时


延 

：

＝＝
Ｔ＿
＾
－（ 

）
Ｊ
Ｂｌｏｇ
２
ｌ ＋ｒ 
ｎ
（
ｉ
［｝
ｉ
）
其中￡表示每架无人机每次共识需要传输的数据包的大小我们假设其为 

个
一
＞
。
ｓ
固定的常数 

。
２．１．３共识能耗模型

 －
无人机之间所有追踪信息交互所需的共识时间和飞行过程中的能量消耗在


追踪场景中至关重要。在这种情况下，多无人机通信网络中必须考虑共识能耗模


型。共识能耗模型可以定义为 

：
Ｆ＾Ｔ＾
＾７ ２６）－
（ 

ｉ）
其中￥和Ｇ为模型系数且满足Ａ 
＋＜＝
２
１。７
；
和＆分别为离散算法共识模型和能


耗模型。
Ｙ表示用于调整能耗比例的能耗系数。
ｐ时防止分母为零的系数 

。
２．１．３．１离散共识算法模型


在分布式多无人机追踪网络中，网络连通度和通信时延会引入误差，其将会


严重影响共识结果的收敛时延及时间。当无人机和无人机ｆ
＿／之间出现通信时延


＆时，离散动态时间共识算法的表达式如下所示 

：
１１





元（
，＋１
）
＝
 ｘ
，
 （
，
） 
＋

ｙ
以
ｅｎ


，
［６？；
（
卜
 ５  ）］  （
２７）


－
其中ｉ
，
被叫做无人机的值本文将其定义为追踪无人机的位置信息
ｆ，ｆ。
％为无人


机和无人机ｙ之间的共识权重系数
ｆ，当（＾２
；。？
时（后文我们会专门定义Ｕ 

，
所有无人机的值将逐渐达成共识 

：
ｌｉｍｉ，（
／
）
＝
 ｌｉｍ
ｌ
￣
＾＾
ｃｏｎ


＾（
／
）  （
２８－


）
表示多无人机追踪网络的共识收敛时延如果无人机之间存在通信时延。 

，
则无人机将会对来自其他无人机的延迟信息进行融合，这将给无人机的值，也就


是无人机的位置信息带来误差。除此之外。如果时间延迟足够大，上述方程更有


可能不收敛。通过［
３５］的分析和证明，我们可以得到多无人机网络中容许时延的


最大上界，以满足方程收敛的条件 

：
Ｖ
点 （
２９＇


）
其中？６）
表示多无人机网络图Ｇ最大的出度个数，可以被计算 

：
ｄ娜｛
〇
、
＝
 ％ 〗
（
２－
１０


）
除此之外从的分析和证明可知不同的网络拓扑结构会导致共识算法的
３５］
，
［
， 

收敛时延也不同。其收敛时延可以表示为；被称作拉普拉斯矩阵的第二小


特征值，也称为代数连通度。
其中ｉ是图（？的拉普拉斯矩阵。因此， 

多无人机追
踪网络的共识收敛时延可以被定义为［
３６］


：



＾
＋＂ｌ
＾＾２＾Ａ
Ｋ）
￣
＾
ｆ
１
） ％
－
ｌＮ
２
＾ｃＬ
－
Ａｒ
ｌ ｃｋ
－
＼
（１（１
２２
（）｛）
其中ｃ＃ｃ
２
为正常数，
＆ｅ（
０，
ｌ
）
，《：
２
ｅ
〇，
〇〇
）


。
加入中继无人机后，
因为存在前后场景的变化，我们需要计算引入这种差异


化而带来的系统化的提升，因此，离散共识算法模型可以表示为有中继无人机和


无中继无人机的共识算法的收敛时延差 

：
Ｃ 
＝
Ｓ
？＝１
（
ｒ
— （
？
）
－
７咖
 Ｗ）  （
２－
１２）


其中是中继无人机加入追踪网络后的共识收敛时间 

。
１ 

２



２１３２
．．．
能耗模型


在多无人机追踪网络中，能量消耗主要包含两个方面：

无人机之间的通信能


耗和维持无人机机载飞行所需的推进能耗。
然而，无人机网络中的通信能耗远远


低于推进能耗因此本文将不考虑这部分本文假设所有无人机以恒定的高度


一
，。
飞行具有恒定的速度Ｖ水平飞行期间推进消耗的功率由关系式给出
３７］
［
办，， 

：
ａ
＋ｆ 
３
＞
ｉｖ＝
 ＣＶ２－
１３
（） ｎ，
（ 

）
ｖ 

其中＾是用来平衡由表面摩擦引起的寄生阻力所需的功率是用来平衡



３
，
空气阻力所需的功率。
＾和＾与无人机和环境的许多参数有关
＾，计算如下 

：
０
＾＼ｐＣＳ  ｔ
（
２－
１４）


Ａ  ２Ｗｆ
２

，
，
＾ｒｊＳ
｛）ｐ 

ｔ
其中，
ｐ和Ｃ分别表示空气密度和零升力阻力系数。
＆是无人机的参考区域。 

ｅ
是奥萨瓦尔德效率。７
７，和Ｆ分别是无人机的机翼展弦比和重量。因此，中继无人


机消耗的推进能量可以由以下公式得出 

：
＾ 
ｖ，
ｎ＝
 Ｐｖ＝
 ｄｒ（
２－
１６


）
（） ｔ  （）
｜ 
其中表示中继无人机在第ｎ个时隙中的飞行距离，表示中继无人机在



第》个时隙中的飞行速度。
因此，我们的能耗模型可以被表示为 

：

ｐ
ＥＲ
ｆＥｖｎ２７）
－－
１
ｄａｙ
ｒ｛，
）
（ 

？＝１


备注：由于所有追踪无人机的追踪轨迹不在我们的优化目标范围内，因此这


里只考虑中继无人机的飞行中推进能耗 

。
２．１．４中断共识概率模型


－
２．１．４１．
中断概率麵


在每个时隙的追踪过程中，由于无人机飞行轨迹的不确定性，无人机之间的


某些通信链路有可能因链路ＳＩＮＲ质量差而中断。

从网络拓扑图的角度来看， 

当
个无人机无法与任何其它无人机通信时会出现个非连接的图因此中断


一一
，。，
概率模型可以被定义如下 

：
１ 

３



户
及Ｈ ２８
＝－
１
（ 

）
＿

，、  ｆｌ  ｅｘｉｓｔ  ｄｉｓｃｏｎｎｅｃｔｅｄｇｒａｐｈ


ＷＷ


＝＜
（
２－
１９）


。 —

其中表示系统在第《个时隙中是否处于中断状态。
判断多无人机中断的


条件是在当前网络拓扑下是否存在连接图。
如果存在，则系统处于连接状态 

，
Ａｕｔａ
ｇｅ
的值为〇。
如果不存在，则系统处于中断状态，
Ａｕｔａ
ｇｅ
的值为１ 

。
２．１．４２
．
共识概率模型


从网络拓扑的角度多无人机网络图中存在棵生成树且通信链路满足时


一
，，
延限制的需求在中已经被证明是网络系统达到共识收敛的充要条件换句话



［
３８］
，。
说，图中必须存在
一
个全局可达点。因此，共识概率模型可以定义如下 

：
＾ｃｏｎｓＷ
 ２２０）
￣

－
ｅｎｓｕｓ  ｃｏｎｓｅｎｓｕｓ  （（ 

）
、
ｆｌ  ｃｏｎｓｅｎｓｕｓ  ｃｏｎｖｅｒｇｅｓ


Ｗ
，
Ｃ—

＝
２２＿
１
（ 

）
〇  ｅｌｓｅ

 ｜
其中，表示系统在第《个时隙中是否处于共识状态判断多无人机系统是

 。
否共识的条件取决于在当前网络拓扑和时延下网络能否收敛。如果收敛，系统则


处于共识状态。的值为１。
如果不存在，则系统处于非共识状态 

。
的值为０ 

。
２２．
问睡构建


本节中，对多无人机追踪网络中的共识、能耗折中优化问题，
以及追踪过程


中的网络共识、中断概率的优化问题分别做了详细的理论分析 

。
２２１
．．
共识收敛时延和麟的折中


在多无人机追踪网络中不同的网络连通度会严重影响共识算法的收敛时延

，
（具体在第四章分析），网络连通度越大，共识算法的收敛速度越快。这种代数


连通度可以通过改变边的权重来控制，也可以通过增加和删除边来控制。然而 

，
增加和删除边以获得期望的代数连通度是个难问题因此在我们的方案



一
ＮＰ。，
中通过加入个新的中继无人机可以有效地改变网络的拓扑结构实现增加


一
，，，
和删除边的目的 

。
１ 

４



除此之外，在无人机的飞行过程中，中继无人机的飞行轨迹也会影响整个无



人机网络的能量消耗（因不考虑追踪无人机的轨迹优化问题，
所以只考虑中继无


人机的能耗），能耗问题依旧是多无人机系统中需要研究的重要问题 

。
首先，
本文假设所有追踪无人机在初始时刻都是静态的。
在这种情况下，


我
们希望找到中继无人机个最优的初始位置部署使得我们的追踪网络共识算法


一
的收敛时延和中继无人机的能耗都能较低。

因此，我们将该问题可以表述为 

：
ｍａｘＦ  ２２２
－
ｎ（ 

）
ｓ－ｔｃｌｒｄ＞０＾


ｉ
ｊ 
ｃ２：  ｔ＜ｄ 
ｒ 

ｔ
其中表示无人机之间的最小距离阚值。ｃｌ定义了最小的距离参数，以防止



每架追踪无人机之间发生碰撞。
［表示中继无人机在每个时隙中的移动时间， 

因
此，ｃ２定义了中继无人机的移动时间范围 

。
２２２
．．
織网络中的共识和中断概率


当追踪无人机开始移动时，追踪网络的拓扑结构是可变的，这将导致现有的


一
些通信链路发生频繁的中断。
因此，无人机网络的连通度很容易受到影响。 

这
会影响共识算法的收敛时延甚至导致完全不收敛所以我们需要找到条中继


一
，。
无人机的轨迹来解决这些问题。因此，该问题可以被表述为 

：
＾Ｏｕｔａ  （
２２３￣


）

ｇｅ
眶户應娜  ２２４＿
（ 

）
ｔｃｌｄＤ＾
ｓ－ｉ
＾ 

ｃ２：ｔ＜ｄ
ｒ 

ｔ
２３．
基于ＤＱＮ的中继无人机初始化部署算法


在本节中，当我们随机初始化所有追踪无人机的初始分布后，我们将利用


ＤＱＮ算法，来找到中继无人机的初始部署，以优化无人机网络在初始阶段的共


识收敛时延和能耗的折中问题 

。
１ 

５



２３１  ＤＱＮ
．．
 算法


首先学习是强化学习算法中的种基于值的算法即构造
一
个表来


一
，
Ｑ，
Ｑ
存储Ｑ值，然后选择能够获得最大回报的动作。与Ｑ学习相比，ＤＱＮ的主要思


想是用深度神经网络模型来代替Ｑ表来实现智能体的状态估计 

。
此外，为了准确有效地训练和更新Ｑ网络，ＤＱＮ算法主要表现出两个重要


的区别：经验重放和Ｑ－
ｔａｒ
ｇｅｔ网络。ＤＱＮ采用经验重放机制来维护队列，保留历


史经验在每步中ＤＱＮ都使用个来自经验重放缓冲区的小批量数据来存


一一
。，
储来自代理和环境之间交互的传输样本。由于经验重放记忆独立于神经网络， 

它
保证了训练数据的相对独立性并能避免发散除此之外也是种破



一
Ｑｔａｒ
ｇｅｔ
－
，。，
坏相关性的机制。使用Ｑ
－
ｔａｒ
ｇｅｔ将使ＤＱＮ中的两个网络具有相同的结构，但参


数不同。
Ｑ目标的更新将落后于评估网络。对评估网络进行多次更新，将评估网


络的参数分配给标网络实现标网络的更新这样在定程度上降低了当


一
目，目。，
前Ｑ值与目标Ｑ值之间的相关性，提高了算法的稳定性 

。
２３２
．．
算法模雖义


在我们的ＤＱＮ模型中，ＤＱＮ用于控制中继无人机的飞行。中继无人机将作


为
一
个智能体，可以定期收集追踪无人机网络的状态，并通过与多无人机网络的


环境交互，使用ＤＱＮ算法来确定其最佳行动策略，即飞行轨迹，以在决策步骤


中来最大化观察到的回报ｒ在每个步骤中中继无人机从状态空间中观察


一
。ｆ，
，
个状态＾并基于网络选择个动作４因此我们可以定义中继无人机的状



一
，
Ｑ。，
态、行动和奖励 

：
１
）状态表示中继无人机由水平位置和垂直位置两个状态组成被定义为
：， 

：
Ｋ、，
凡），其中ｆ为中继无人机的水平平面坐标，状态空间能够被表


示为＼：
｛
０，１ …
＆丨
，７，：
｛
０，
１．．．；
＾｝
，１０和＆为特定区域内最大的位置坐


标每次试验中每架中继无人机的初始状态位置都是随机确定


一
。，（）
的，
更新Ｑ网络则由中继无人机的初始位置、追踪无人机数量和追踪无


人机的位置决定。当每架中继无人机离最佳位置越近，更新速度越快 

。
２）行为空间：这些动作用于改变中继无人机的行为以响应每个时隙处的状


态我们假定中继无人机的行动由 

和
°
。
？
飞行方向必＜０，
３６０
；｜
，
必ｅＺ
飞行距离元组成在每次实验中基于时隙 ”
一


％：，，
的当前状态＼和基于Ｑ网络的控制策略，中继无人机开始执行动作ａ以

 ，
响应状态４。
最优动作使多无人机网络的平均回报最大化 

。
３
）
奖励：
奖励定义了中继无人机部署方案在当前状态ｓ对时隙ｎ中所采用


１ 

６



的动作ａ的影响。在我们的模型中，我们使用添加中继无人机和未添加


中继无人机的整个网络的共识收敛时延差值和中继无人机消耗的能量 

，
这两部分的加权和来量化我们的优化目标，基于以上的优化目标来确定


最优中继无人机的位置，因此我们的奖励方程可以通过如下这种形式计


算得到 

：
（
２２５）
－


來，Ｗ）
＋Ｃ
２ 
如


，
（ ‘ （
：
）
ｎ 
＝
 ｌ
，
２” ＂
，
Ｎ 

ｔ
２３３
．．
算法流程描述


算法２－
１基于ＤＱＮ的中继无人机初始化部署算法



１：
随机初始化多无人机追踪网络分布


２：初始化经验回放内存马和！＾
３：
初始化两个行动值函数－
糾和込）（ｗ２｜
巧）
，其中沒为随机权重


４：初始化两个行动值函数么＃＃－
，
％％和其中权重


沒 ＝
０和
＝

６＞
６＞
１２ 

２
５：  ｆｏｒ  ｅ
ｐｉｓｏｄｅ 
＝
１
， 
Ｍ  ｄｏ


６：
 在特定地理区域内随机初始化中继无人机的位置坐标


７：  ｆｏｒｎ
＝
１，
Ｎ  ｄｏ


８：
 基于概率￡选择动作 ■


和
否则选择＼狀容〇和〇＾０２
＾０
＇
严０
９：
＝
１１１＞？，
６＞
〇１１５￡１
１（１｜
１）２” ２（
，
２｜


）
１０： 执行动作ａ和ａｌｎ２？，观察奖励ｒ
？，更新状态＾＾


１１：
 储存转移样本（
ｓ
？，
人，
＾＾  ）
放入马和（
＊？
？，  ， 
ｒ
ｎ，
＼＋１
）
放入Ｄ 

２
１２：
 从＾和仏中随机抽取小批量转移样本 

和
Ｓａｒ，
Ｓ
，
２
，
ｊ
＋ｌ
｛ｊｊｊ 

）
１３：
令凡．
＝
ｒ
７
．
＋，ｍｘ２＿ｎ（
ｓ
Ｍ，
ａ；Ｗ＊

 ）
＾
１ 

７




＋／ｍａｘ
ａ＾
＝
Ｔ
ｙ２Ｊ 
ｊ
 

ｉ
１４：
对？－
！
２１
（＼，
气＾））
和＞
；
＂
－
０２
（５
．
，
％丨
沒
２／））
利用沒
１
和沒米用
２

 ，
（（
＿
梯度下降的方法最小化损失


１５：
令心＝
？＋ 

１
１６：
每Ｃ步更新相应的目标网络：


和
１７： Ｅｎｄ  ｆｏｒ


１８： Ｅｎｄ  ｆｏｒ


基于ＤＱＮ的中继无人机最优初始部署算法如算法２－
１所示。ＤＱＮ模型主要


由两部分组成：（１）两个深度神经网络（ＤＮＮ）和（２）
Ｑ
－
学习决策模型。
神经


网络可以解决高维动作空间的问题。通过拟合函数而不是Ｑ表来生成Ｑ值， 

我
们可以得到相似的状态和输出动作。
因此，ＤＮＮ对复杂特征的提取有很好的效


果同时ＤＱＮ有个类似于的更新公式可以最大化折扣长期回


一
。，
Ｑ
－
ｌｅａｍｉｎｇ，
报，如下所示 

：
Ｑ｛ｓ＾ａｎ）
＝
 ＥＳ
ｎ＋ｉ 
Ｌ
ｒ＋ｙｍｓｘ
〇
ｎ＋ｌ

Ｑ（ｓｎ＋ｌ
，
ａ
ｎ＋ｘ） 


－
（
２２６）
－


其中Ａ表示在时隙ｎ下的的当前状态和行为。５
？＋１
，ｌ
ｆ
？＋１
是下
一
个状态和动


作。
＇是状态８的奖励，０
分＜是折扣因子１。当；
／
趋于零时，中继无人机主要


考虑即时奖励。当／趋于１时，中继无人机主要考虑未来的奖励 

。
在我们的机制中，中继无人机的动作由飞行方向和飞行距离组成。因此， 

在
我们的设计和实现中，我们使用两个相同的ＤＱＮ模型分别对它们进行训练。 

它
们可以表示为两个行动值函数－
批和２）２Ｃｓ，
ｌ
ｆ
２｜
内）。相应的目标网络可以


表示为和２＿屮？〇：
。在每个ＤＱＮ模型中，我们使用
一


个
两层的全连接的神经网络第层有个神经元第二层有个神经元ＲｅＬＵ


一
。２０，２０。
用作激活函数 

。
在学习和更新过程中我们使用经验回放缓冲区来更新和存储收集的环境样


 ，
本。经验回放缓冲区以大小Ｄ初始化。在每个时隙，
观察到的状态、动作、奖励


和下个状态被存储到该缓冲区中然后从该缓冲区中随机抽取小批状态序列


一
一
来更新ＤＱＮ网络。在具体的更新过程中，
我们使用梯度下降法来更新权重参数


和内经过定次数的迭代后Ｑ込网络的参数被复制到网络
一
３。，
，


。
我们使用最优ａａ
＿
网络和Ｑ网络的最小均方误差来定义损失函数。
两个损失函


数与 ⑷ 丨厶＾＾都可以表示为 

：
１ 

８
第二章基于ＤＱＮ算法的中继无人机部署与轨迹规划方案
 



２
Ｌ
⑷ ＝
￡
［
（
么一
－
的＾丨 ” ，
））
］
（
２２７）
－


１＞
２（爲）
能够以相同的方式被获取，是目标网络的值，可以被表示为 

：
ｋ 
＋ｒｍａｘ
ａ
２（＾Ｉ＋１
，
？＋１  丨  （
２２８－


）
＼ｎ＋＼


能够以相同方式被获取，
３和爲能够通过两个损失函数 

和
利用梯度下降来更新，其可以被计算 

：
⑷ ４么＿＼２
＝
（？，
幻］
—
４以？，
？网 ▽＃（？？）
，
⑷ ］
（
２２９）
－


▽ａ１  〇
９
２）
能够以相同方式被获取 

。
在每个时隙更新参数＾和氏后，行动ａ和ｌｎ
都会停止。并可根据贪婪算法


进行选择，即在概率为ｓ的情况下随机探索动作，并在概率ｉ
－
ｓ为的情况下使用


神经网络决策获得下个动作贪婪算法可以鼓励中继无人机进行探索并防止程



一
序陷入局部最优值 

。
１ 

９



２３４
．．
算法具体训练流程


开始ｍ


ＺＴＺ

 ＂
计算当前的网Ｌ 


机的腿状态


丨
中觀人謎 

）
探素？值来


动作


中继无人ｔｍｓ动

 ｉ
ｍｔ到麵和下 

一
个状态 



Ｉ
得到織样本包括当献 
 ，
态離麵下状态
、、 
 、
一
和是否终止搭其存储在经
， 

验池中




丁

ｖ
当经验池中的经验数垦大于
ｂａｃｈ大小时
｜


 
 从经验池
１
中 

随ｔ，
机取釋匕故如大小的样本计一一
麵調一。 

训每结采
 算当前网络下的实际Ｑｆｉ开 
 ？
 — ＂ ■ … … —
 
ｍｍ 


图２
－
３ ＤＱＮ训练模块 

图
２０





步骤
一
：
开始进入ＤＱＮ的模型训练，设置训练的回合数为５００轮，判断是


否完成回合训练，如果完成，则模型训练完毕，如果没有完成，则进入步骤二 


。
步骤二：
随机重置中继无人机的位置状态，状态空间能够被表示为


ｘ
ｒ
：
｛
〇，
ｌ．．．ＺＤ｝
，ｙｒ：
｛
〇，
ｌ “ ．；
＾｝
，
心和｝
＾为特定区域内最大的位置坐标 

。
步骤三：
判断是否完成每个回合下的步骤训练，步骤训练值设置为５００步 

，
如果完成则进入回合判断进入新轮的学习如果没有完成则进入步骤四

一
，，， 

。
，
步骤四：
中继无人机利用概率超参数ｅｐｓｉｌｏｎ在随机和Ｑ策略间选择动作来


探索环境，在探索环境的过程与环境进行数据交互，该数据包括加入中继后整个


网络的参数，如每条链路的相应的信号与干扰加噪声比、链路速率及链路时延 

。
飞行距离中分别选择特定


°
动作的选取，会在飞行方向必ｅ
［
０３６０
，
］
，
步长 

。
步骤五：
得到与环境交互的参数后，通过奖励公式得到相应的奖励值，建立


状态转换同时将得到的转移样本包括当前状态动作奖励下状态和是



一
，，、、、
否动作终止五种状态储存在经验池中 

。
步骤六当经验池中的经验数量大于：
ｂａｔｃｈ的大小时（ｂａｔｃｈ我们设置为５００） 

，
从经验池中随机取出ｂａｔｃｈ大小的样本，依据公式


＝
五
°
计算当前网络的的Ｑ值，其中，
＆为在状态


＾下采取动作《得到的奖励值，
／为折扣因子，我们设置为〇９９＞
．


步骤七：计算当前网络状态，回到步骤

一
，如果训练完毕，输出训练模型 

。
２ 

１



２３５
．．
算法具体实现流程


迨驗人机隨初始化戀初始 

＊
化贿追驗人棚 

布在初始化的时隙中假定所有
， 
 ，
追齡的



ｖ
追駄人顯络状親碰始化的时


隙中假定所有追踪无人机是静态的计算当前
， 
 ，
追踪无人机网络的网络状态包括每条链路的泪

 ，
应的信号与干扰加，＾比链路速率及链路时延

 、


ｒ
ｉ
进入ＤＱ＿除模

ｍｍＤＱＮｖｍ


ｍｍ



＇
龌棚雛


？
中继无人＿位置


 ＾  ＾ 


得到满物最従中


继无人机祕署織


图２
－
４算法１实现流程图


步骤进入追踪无人机位置初始化模块通过随机函数初始化追踪无人



一
：，
机的起始位置分布使其随机分布在定的区域大小内初始化分布时每架



一
，，，
无人机之间为了防止冲撞应满足相应的距离限制，距离限制为２０米 

。
步骤二进入追踪无人机网络状态初始化模块在初始化的第个时隙中 

假
一
：，
定所有追踪无人机是静态的，通过建模过程，计算当前追踪无人机网络的网络状



态，包括每条链路的相应的信号与干扰加噪声比、链路速率及链路时延 

。
步骤三：
进入ＤＱＮ的模型训练模块 

。
步骤四：
进入中继无人机训练测试模块，
随机初始化中继无人机的位置， 

使
用训练模型进行测试，得到满足条件的最优中继无人机的位置坐标 


。
２２





２４
．
基于ＤＱＮ的中继无人机轨迹规划算法


在本节中，当所有追踪无人机开始追踪任务时，追踪无人机的位置在每个时



隙中是动态变化的，因此最佳中继无人机的位置也会随着追踪无人机的位置变化


而变化为此我们提出了种基于ＤＱＮ的中继无人机动态轨迹规划算法
一
。，


。
２４
．．１算法模型定义及流程


当追踪无人机开始持续移动时，整个追踪无人机的网络拓扑将时刻发生变化 


。
网络拓扑的变化将会导致些无人机之间的链路可能会随时发生中断这使得



一
一
些无人机也许无法接收来自其他无人机的追踪信息。其次，共识算法的收敛条件



是必须存在棵生成树且通信链路的时延满足定的约束条件保证共识算法


一一
，。
的收敛性也是我们需要考虑的问题 

。
在考虑中继无人机的轨迹之前我们假设所有追踪无人机的轨迹采用随机游

 ，
走模型，且以相同的高度和速度飞行。追踪无人机的运动沿飞行方向



和飞行距离均勾分布在这种情况下我们的算法可以根据


°
沒＿＾０３６０
，
＜？＾
。，
［１
追踪无人机的运动情况获得中继无人机的动态轨迹。在每个时隙中，当追踪无人


机开始移动时，相应的中继无人机也会选择两个动作％和，
《
２？
，包括飞行方向和


飞行距离然而对于相应的奖励函数相对于算法我们进行以下的更改
一
。，，， 

：
ｒ＝Ｆｎ（
ｎ＋  〇ｎ
）
＋  Ｃ（
ｎ


）
） ［
稱
．，咖


＝

２３〇）
＂


來
（
＝
－，
．
（
？
）乂》）
＋＾
２／
［
＾
Ｅｒｅｌａ


ｙ

Ｘ 
，
＋〇
（
？
）
＋  Ｃ
（
ｎ


）
ｎ 
＝
 ＼
，
２，
．．，
，
Ｎ 

ｔ
其中０（０和是多无人机系统在第ｎ时隙下的中断和共识的奖惩因子，具体


可定义为 

：
２００
＇
／７
／＜Ｉ 
＝
 

１
０Ｕｔａｇｅ  ｏｕｔａｅ
ｇ
 〇 ｎ
〇？＝＝
ｕ ２３－
ｉ
（ 

）
（）
Ｉ
＇
２００＜Ｉ
＾ 
ｏｕ，ａ
ｇｅ  ｏｎ
＾ｅ
ｆ  〈广
，
Ｊ  Ｉｊｆ  

０
一

一
Ｚ ＾

Ｊ ＾ｃｏｎｓｅｎｓｕ 
＿
＾ｘｊｙ
 ０ ｆＣ 
＇
Ｃ（
？
）
＝ ＜
ｉ
 ｃｏｎｓｅｎｓｕｓ 
＝
 Ｃｃｏｎｓｅｎｓｕｓ 
＝
 １
（
２３２）
－


２００ Ｃ ＞Ｃ
ｆ
ｖ／ｖｒ  ＾ 

ｃｏｎｓｅｎｓｕｓ  ｃｏｎｓｅｎｓｕｓ



２３





其中是多无人机Ｍ络中加入中继无人机后的中断状态和共识状



态。
和ＣＬＳ＿＊
是没加入中继无人机的中断状态和共ｉ只状态 

。
算法２２－
基于ＤＱＮ的中继无人机轨迹规划算法



１：


２：通过算法１初始化中继无人机的位置


３：
初始化两个行动值函数－
幻和込（＾２１
沒２），其中沒为随机权重


’
４：
初始化两个行动值函数２＿＆？－
１１
）
和０＿士＞丨｜
＾〇，其中权重


和＆０ 
２
＝


２
５  ：  ｆｏｒ  ｅｐｉｓｏｄｅ 
＝
１
， 
Ｍ  ｄｏ


６：  ｆｏｒ  ｎ 
＝
１
，
Ｎ  ｄｏ


７：
 更新每架追踪无人机的位置坐标


８：
 基于概率ｓ选择动作？和ａ２？


９：
否则选择ａｌｎ
＝
 ａｒｗｍａｘ 
＜
？１（￥，￡１
１丨
０１）和 ＝
ａｒｇｍａｘ  ｇ
２（Ａａ
ＪＡ 

）
ａＸ ａ


２
１０：
执行动作ａ和ｆ
ｌ
ｌｎ２？，观察奖励／
？
？，更新状态＆＋ 

１
１１：
 储存转移样本（
■ ？
？，
ａｌｎ， ，ｊ
？＋１
 ）
放入 和（
〃
？，
ａ２？，
ｒ
？，  ＼＋１）
放入Ｚ 
）


２
１２：
 从Ａ和￡中随机抽取小批量转移样本

 ＞
Ｓａ，
ｒｓ
ｊ＋ｌ）
，，
２ｊ
（ｊｊ 

１３：
令＾：

＝
 ｒ
； 一
＇
 （？，
ａ；
⑷和


ｙ２Ｊ 
＝
 ｒ＋ｘｍａｘ
 Ｑ＾，
ｓ
＋ｌ，
ｄ２ｅ２
ｊ
＼
 ［Ｊ 

）
１４： 对凡
（
．
＿
２也．
，
％凡）ｆ
和（
Ｊ２厂込（＼，
？丨
％利用３和Ａ采用

 ，
梯度下降的方法最小化损失


１５：
令心＝
＼＋ 

１
１６：
每Ｃ步更新相应的目标网络 

：
１７：  Ｅｎｄ  ｆｏｒ


１８： Ｅｎｄ  ｆｏｒ


２４





２４２
．．
算法具体实现流程


初始化所有迨踪  机的 

位Ｓ利甩方案ｍｉ最
， 
 一
优的中缝无人机的位暨


驗无人机移


臟人机开娜＾ 

￣
Ｍ
￣


＾

 人机移


达待走


丫 

５
ＳＡＤＱＮ训续植


块得到ＤＱＮ练，
 ｉｌ丨Ｉ
ｍｍ 

 ：：  

Ｉ
输出中蓬无人机的  ■ 试中＿＾人＿  


ｍ
－


０
图２５
－
算法２实现流程图


步骤初始化所有追踪无人机的位置利用算法２中得到的结果找到最


一
：，１
优中继无人机的位置 

。
步骤二：进入追踪无人机移动模块，每架追踪无人机以５０米每秒的速度 


，
遵从随机漫步的移动模型移动步
一
， 

。
步骤三：判断追踪无人机的移动步数是否达到特定步数，如果达到，

则输出


中继无人机的最优轨迹部署，
如果没有达到，
则进入该次移动下的ＤＱＮ模型训


练模块 

。
步骤四进入测试模块使用训练模型进行测试追踪无人机移动步 


中
一
，，
：，
继无人机移动步后再次进入追踪无人机移动模块
一
，


。
２５．
仿真结果与分析


本节对中继无人机的初始化最优部署算法和动态轨迹算法的仿真结果进行



了评估和讨论在仿真中我们在个大小为的地理区域内部署了４

一
。，
ｌ〇〇ｗｘｌ５０ｗ 

２５


 


架追踪无人机和架中继无人机其他仿真参数如表所示之后我们将我们



一
。２－
１。
的仿真结果与Ｑ
－
学习和随机部署算法进行了比较 

。
２５
．．１仿真场景


表仿真参数表
２

－
  



参数 
描述 
Ｍ 


Ｐ

无人机的传输功率 
２０ｄＢｍ



Ｂ

＾ 
１ＭＨｚ



Ｎ

追踪无人机个数 
４



ｙ
ｇ
ｐ

信道系数 
－
５０ｄＢ



／ 
折扣因子 
０９

 ．

Ｉ 
学习率 
００１



Ｗ 
能量消耗系数 
１００



共识系数 
０９５

 ．

能耗系数 
００５

 ．
２５２
．．
仿真结果及分析


（
１
）
基于ＤＱＮ初始化部署算法的仿真结果


图２－
６显示了不同算法的平均奖励训练结果。我们可以看到，中继无人机的



动作可以在每次训练回合中被不断修正以提高平均奖励实现最大回报可以



一
，。
观察到，与Ｑ学习和随机部署算法相比，
我们的算法可以获得更高的平均回报 

。
图２－
７显示了中继无人机在不同算法下寻找最佳位置的步骤数的训练测试结果 

。
我们可以看到，
与Ｑ学习和随机部署算法相比，我们的算法可以用更少的步骤


获得更高的回报 

。
 ｈ


一
… 一
—
６０
－ ■ ￣
  
— ？

Ｒａｎｄｏｍ  ｄｅｐｏｙｍｅｎｔ

ｌ
￣
－
８０  Ｊ
 ｜ ｌ  （ｌ
 

ｌ

■
．
：：
！
，   
 
 


，  
〇  １００  ２００  ３００  ４００  ５００
 ｑ ＾ ｌ〇  ５ ２０ ２５  ３〇


ｎｕｍｂｅｒ  ｏｆ  ｔｒａｉｎ  ｅｐｓｏｄｅ
ｉ｛ｓｔｅｐ ｏｎｅ）  ｔｅｓｔ 
ｒｅａｙ
ｌ

ｕａｖｍａｖｎｇ
 ｔ

ｓｔｅｐ


图２６－
不同算法下平均回报比较图图２７－
不同算法下中继无人机测试步数比较图


图２－
８、图２－
９显示了中继无人机的能耗和多无人机网络在不同算法和不同



测试次数下有无中继无人机的共识收敛时延差异。我们可以看到，当我们将中继



２６





无人机的能量消耗和多无人机的共识收敛延迟差与奖励函数解耦时我们的算法

 ，
在能量和收敛时延方面优于Ｑ学习和随机部署算法 


。



ｒｎ７７＾ 
 ｌ：
ｉ
ｔ
：

 —
Ｒａｎｄｏｍｄｅｐｏｙｍｅｎ 
，
 
 ｙ
ｌ



ｈｔ
 ｜ 一〇．
｜
ｊ
ｈｈ
 ＾
｜
ｊ
Ｕ
｜  ＼／
Ｉ


Ａ ｎ ／   ／
１ 

／
一
卜令＿
＾
－
－
一
？
＂
＊＂￣
＜
＞
＂
＇
＂＂
＾＜＇
＇
＊
＾
￣
＃
＂＂
＂
＂
＊
＼
＾
＞
？＜＞
＊
＊
＞
＂
＾１
＇
＇
＇
＾＃
一
１
ｃ
普
 

＼
？ｒ
－
？
 Ｒｉ
ａｎｄｏｍ ｄｅｐｏｙｍｅｎｔ
ｌ
°
＊
＝

．

，

二￣￣
．

＝

，

ｒ
￣ｌ
３ －
ｉｏ〇Ｊ 

  


＞

．
 
ｒ


—
２ ５  ７１０  １２  １５  １７ ２０  ２ ５  ７ １０ １２ １５  １７  ２０



Ｔｅｓｔ  ｎｕｍｂｅｒ Ｔｅｓｔｎｕｍｂｅｒ

图２
－
８不同算法下中继无人机能耗图图２
－
９不同算法下中继无人机共识收敛时延图


（
２）基于ＤＱＮ轨迹规划算法的仿真结果


图２
－
１０显示了追踪无人机在移动时不同算法的平均奖励训练结果。在每个


时隙中追踪无人机飞步中继无人机执行个动作并从其错误经验中不断


一一
，，，
学习，
以提高平均回报。可以观察到，
当追踪无人机移动时，我们的算法比Ｑ 

学
习和随机部署算法能获得更高的平均回报，且算法波动较小，稳定度更高 

。
５〇〇
－ 
—
〇－
ｉｅａｒｎｎｇ

ｉ
Ｒａｎｄｏｍｄｅｐｏｙｍｅｎｔ
 

 ｌ
０  １００  ２００  ３００  ４００  ５００


ｎｕｍｂｅｒ ｏｆｔｒａｎｅｐｓｏｄｅｉｉ
（
ｓｔｅ
ｐｔｗｏ 

）
图２－
１０追踪无人机移动时不同算法下平均回报比较图


图２－
１１、图２－
１２显示了中继无人机的能耗和网络共识时延差在不同算法和



不同轨迹下的仿真结果通过网络的训练和学习我们共测试了六条不同的追


一
。，
踪无人机和中继无人机轨迹。
对于不同的测试轨迹，可以看出我们的算法始终都


优于其他比较算法，
都能获得较低的能量消耗和共识收敛时延 

。
２７






   —




０

１８
ｆ：
ＤＯＮ 

 

＊
 １５０  ｃＨｅａｍｎ
 

／
．

， —￣
ｉ
ｇ
少一
￡

 Ｒａｎｄｏｍｄｅｐｏｙｍｅｎｔ
 ｌ
 

／
Ｉ
－
二二  ！
＾
 ／／


ｔ８０ 
一－
 Ｒａｎｄｏｍ  ｄｅｐｏ
ｌ
ｙ
ｍｅｎｔ
 ｜ 〇 
、
、 
 ／


！〇〇
．
 

１
：
ＸＸ ■ 一


１２３４５６  １  ２  ３  ４  ５  

６
ｒａｅｃｏ
ｔ
ｊ
ｔｒ
ｙ  ｔｒａ
ｊ
ｅｃｔｏｒ


ｙ
图２－
１１不同轨迹和算法下的能耗图图２－
１２不同轨迹和算法下的共识收敛时延差图


图２－
１３、图２－
１４显示了多无人机网络在不同算法下的共识概率和中断概率 


。
在追踪无人机运动的过程中，也就是随机部署算法中，我们可以看到共识概率很



低，
接近于１０％，中断概率接近于５５％。通过在飞行过程中加入中继无人机， 

同
时利用我们的算法可以大大提高共识概率，，降低中断概率几乎可以达到，１００ 


％
的共识和１０％的中断，与其它算法相比，我们的算法也具有明显的优势 


。
叮 翁Ｈ二
二


－
，，  

Ｉ
 ３
■
ｒ二一
ｊ 

『
ｔＭＭＵ  

赢
０Ｊ
 Ｉｙｉｌｉｉｌｉｉｌｉ：：
０ ２００  ４００ ６００  ８００  １０００  ０  ２００  ４００  ６００  Ｓ００  １０００



ｎｕｍｂｅｒｏｆ   ｔｒａｉｎｅ
ｐ
 ｉｓｏｄｅ  ｎｕｍｂｅｒｏｆ 
ｔｒａｉｎｅｐｓｏｄｅ
 ｉ 

图２－
１３不同算法下的共识概率训练图 图２
－
１４不同算法下的中断概率图


２６
．
本章小结


在本章中，我们主要研究多无人机跟踪网络的共识和能耗问题。
我们引入了


个新的网络框架加入了架中继无人机同提出了种基于ＤＱＮ的中继无



一一
一
，。
人机部署算法，用于初始化部署中继无人机，寻找其最优的初始位置，在这个过



程中优化了整个追踪网络的共识收敛时延和能量消耗。此外，当追踪无人机开始


移动时我们提出了种基于ＤＱＮ的中继无人机轨迹规划算法以优化多无人


一
，，
机追踪网络的共识概率和中断概率。仿真结果表明，与Ｑ学习和随机部署算法



相比，
我们的算法具有更好的性能 

。
２８



第三章基于ＭＡＤＱＮ算法的多无人机轨迹和功率分配联合优化方案 


第三章基于ＭＡＤＱＮ算法的多无人机轨迹和功率分配联合


优化方案 

本章介绍了改善多无人机之间信息共识收敛时延以及多无人机能效的第二



种策略方案在该方案中我们提出了种基于多智能体深度强化学习算法



一
。，
（ＭＡＤＱＮ），通过联合优化所有追踪无人机的飞行轨迹及其传输功率分配来改


善多无人机追踪网络的连通度、共识性能和能效。
首先针对多无人机追踪场景 

，
我们建立了系统模型其次我们将该问题建模为个随机博弈问题针对多无



一
，，，
人机的离散动作空间以及大状态空间导致的计算复杂度高的问题我们提出了利


 ，
用ＭＡＤＱＮ算法来求解该问题的最优策略，最后通过仿真对我们的方案进行了


验证，与其它优化方法相比，我们的方案具有明显的优势 

。
３１．
系统模型


在本章的本节中我们依旧用到了第二章第节所描述的部分模型包括信



一
，，
道模型、离散共识算法模型、能耗模型、共识中断概率模型等，因为这些部分模



型在本章的应用中并未做其余改动，所有我们将不在重复描述该部分，后文的公


式引用将直接对应于第二章第节中的公式模型本节我们只对不同及新添加的


一
模型做具体描述 

。
３．１．１部署模型


Ｍｅｖａｂｌｅｒａａｇｔ


ＴＡＶ


ｒ
ｒａｃｋｉａｇｔ
、 … ｉ一
 ／
Ａｅ

ｔｉｖ＊  ｒａｄＵｎｓ、
   ！
１
’

一

－
一！
▲
ｊ 
 
：
－
、１：
ｉ 

／
 ＾
３－
＼！
； ｜ ／


 ｒｔｔ 
＊
＇ 
，
１ ／  
＇
ｉ

．


＼ 
／  ／ 

＾减鄉私 
ｉ
＊
  

ｍ
厂 
＊
／  ／
Ｊ
 ｒ
’
？／ 

＼
丨
，
Ｔｋｉ
ｒａｃｎｇｔａｒｇｔｔ
 Ｃｏｎｔｒｏｌ ｃ＊ａｔ＊ｒ 

１
（  

／
图３
－
１
部署场景 

图
２９






在追踪场景中本文考虑在个地理区域内部署Ｍ个追踪标用户的集合



一
，目
Ｍ 
＝
 ｆ 和ＪＶ架追踪无人机的集合＝
 ｛
１
，
２．．．
 Ｗ组成的多无人机追踪系统 

。
在该系统中所有追踪无人机在同高度以满足Ｆ＿Ｆｍａ的速度飞行 

每
一
，＜ｖ＜。
ｘ
架追踪无人机负责追踪相应的地面追踪目标并将相应的追踪信息传输给相邻的

 ，
无人机，以完成对信息共识 

。
本文假设追踪目标的整体轨迹是随机的所以追踪无人机的整体轨迹也是随

 ，
机的。
然而，当我们把整个过程无限细分至每个时隙《的运动时，假定在每个时


隙下，追踪目标是固定不动的，此刻，只要保证我们的追踪目标在追踪无人机的


观测范围内即可，所以，在无限个细小的时隙；７下，追踪无人机的轨迹是动态可


规划的如图所示是我们的场景部署图每架追踪无人机都有个活跃半



一
，３－
１，，
径，且在活跃半径中，都是无人机可以移动和轨迹规划的范围。
另外，本文假设


有个中央控制中心可以收集所有追踪无人机的位置状态信息并且能够发送命


一
令，要求每架追踪无人机可以移动到各自相应合适的位置 


。
该系统中所有无人机之间的网络拓扑可以表示为个图Ｇ 五其中


一
＝
 ，
，
ｊ 
＝
表示为该图的邻接矩阵并且邻接元素满足％，２０ Ｆ， 
＝
表示


由＃架追踪无人机组成的集合，五为每对节点之间边的集合，节点的邻居节点

 ｆ
集合可以表不为化＾任＾
巧＾卜其中
：
’ ： 

：
＾／
？３
－
１
（ 

）
［
０５  ｏｔｈｅｒｓ


３．１．２多无人机追踪模型


本文假设地面追踪目标用户的二维坐标为〇＞］
＝
 ＾＞凡］，［
？］
ｆ
ｅ  Ｍ，


其
中心［
？］和Ｌ［
？］分别为在时隙《下，追踪目标ｍ在Ｘ轴和Ｙ轴的坐标。追踪无


人机的水平坐标可以表示为［
ｗ］ 
＝
 ｅ  ＪＶ，其中＼［
？］和乃［
ｗ］分别为


在时隙《下，追踪无人机在ｉＸ轴和Ｙ轴的坐标。因此，追踪无人机与追踪ｉ


目
标ｍ之间在《下的水平距离可以表示为 

：
〇］
＝
 ＼ｌ［
Ｘｉ［
ｒｉ
］
－
ｘ
ｍ［
ｎ］
］
 ＋
［
ｙｉ［
ｎ］
－
ｙｍ［ｎ］ｆ  （
３
－
２）


因为所有追踪无人机在同高度飞行所以无人机的观察模型的数学表达


一
式可以表示为 

：
＜Ｊ？
＝
Ｕ？Ｆ＋＾  ３３）
－
］
 Ｖ（ 

〇ｉｍ［
ｎ］＝
＾
ｙＭｚｍ  （
３
－
４）


３０





其中表示无人机与地面目标之间的夹角，为了保证追踪目标始终在追踪无


人机的观察范围内，该夹角必须始终满足＾
为无人机与地面目 

标
之间的最大夹角度数，因此，可以得到每架无人机的活跃半径为 

：
Ｒａ＝
ｈｔａｎ０
ｊｍ  （
３
－
５）


在活跃半径下我们便又可以得到每架无人机可以移动和轨迹规划的范围区
， 

域 

：
Ｋ （
３
－
６）


除此之外，由于每架无人机的飞行速度满足，因此每架无人机


都存在个最大飞行和最小飞行距离限制它能够被定义为
一
， 

：
＾０＜
＾＋＾［？］
＜
＾５  ３７）
－
－
 １
（
｜｜

］｜｜
，（ 

其中３
，
表示每个时隙的时间长度，
匕和＾分别为每架追踪无人机在时隙３中
。

 ，
的最大飞行和最小飞行速度。
除此之外，在飞行过程中，为了避免所有无人机之


间可能出现的飞行冲撞无人机的冲撞避免限制也应该被考虑限制条件应满足，， 

：
２２
ＩＩ 
ｃ
Ｗ
－
ｃ
Ｗ  ｜｜
＞ Ｄ
ｍｎ
ｉ
，
Ｖｉ
，；
ｅＮ，
ｉ ＾ｊ   （
３－
８）


，
７
其中ｌ为任意两架无人机之间的最小间隔距离 

。
３丄３信道模型


在本节中我们依旧沿用第二章第节的描述的信道模型我们假设网络的



一
，，
传输带宽为５Ｈｚ，其将被均匀地分配给每架追踪无人机，可以被表示为 

：
Ｂｆ
＇
＝－
 （
３
－
９）




Ｎ
进步每架无人机之间的信息传输功率可以被表示为
一
， 

：
（
３
－
１０）


ｉ
＝


＂
其中０  ＜
 ｆ＜Ｐｍ


ａｘ
为无人机的传输功率／，Ｐｍａｘ
表示每架无人机的最大传输功率 

，
Ａ表示无人机对无人机ｆ
＿／的传输功率 

。
除此之外，在追踪过程中，时间间隔ｒ被划分为Ｍ个时隙。其中每个时隙的


长度是３，
， ｒ＝
ｉｖ
，
＊
４。同时我们假设无人机之间的通信信道为ｚａｓ信道，考虑


自由空间损耗模型，因此我们定义信道系数为 

：
３ 

１



Ｎ
＾Ｗ＝＝
 ３－
１１

… …
，
ｔ
（ 

）
ｒ Ｍ   ｎ   ｒｐ
刺十少刺
ｒｒ
ｈ卜ｘ＋
－
Ｊ
」［＿
乃［


」
其中《表示时隙，
爲表示在名
＝
ｌｍ时的信道系数，其中＜为固定常数  


。
表示在时隙Ａ下无人机之间的距离。


考
虑使用同信道资源的多个无人机之间存在干扰因此通过信道建模可以计算出


一
每条链路的相应的可以表示为 

：
Ｐｊｎｎ
［［
Ｎ
，
Ｕ
ｊ
” ＝ ３
－
２）
＼？
１
｝ｆ
… …
，，
＇（ 

其中＆为无人机对无人机／
＿／的传输功率，
＆是对无人机产生干涉的无人机ｉ
＿ 

／
为高斯方差其中及表示每架无人机的网络的传输带宽

２
的传输功率，
％
＝
尽Ａ／
〇
， 

，
表示接收无人机处的加性高斯白噪声（ＡＷＧＮ）的功率谱密度。
当两架追踪


无人机之间ＳＩＮＲ满足；
＾
＞
仏时，表示该无人机和无人机ｆ
＿／之间可以进行通信 

，
以此类推，可在追踪无人机之间建立网络拓扑，其中仏表示满足可通信范围内



ＳＩＮＲ的最小值，为固定常数。
在每个时隙中，无人机对无人机ｉ
＿／的数据速率可


以表本为 

：
＾［
？］＝
孕 
ｌ〇ｇ
２
（
ｌ＋
 ＆［
？
］）  （
３
－
１３


）
基于获得的数据速率，我们可以计算得到无人机的总数据速率ｆ，其可以被


表示为 

：

＝＝
，ｌ
ｙＩ
（
３
－
１４）


ＺＺＢ〇§ ＋＾？？ｌ〇ｇ＋／？ｊｅ ｉＶ＾ｊ
＝
！ ！
 １
２２  ？  ， 
／


）
 ｉ
［］ｉ
［］

 （ｊ 
 （ｉ 
）
＝＝
ｊ
／１ 

＼
同时，我们也可以计算得到无人机和无人机／
＿／之间的通信时延 

：
＇Ｗ
為、ｄ 
＝
３５
＿
１
 （ 

）
。ｇ？
２［］
）
其中表示每架无人机每次共识需要传输的数据包的大小我们假设其为


一
，２）。
５
个固定的常数 

。
３１４
．．
离散共识算法模型


在第二章的第节中我们的离散共识算法模型主要考虑的是加入中继无人


一
机和无中继无人机的共识算法的收敛时延差，加入中继无人机后，因为存在前后


３２





场景的变化，我们需要计算引入这种差异化而带来的提升，而在本章中，我们并


没有引入中继无人机，前后场景未发生改变，因此，多无人机追踪网络的共识收


敛时延可以被定义为 

：
（ 

）
０
＾） 
－
１
ｃｋ
－
１
，（２２）
（
其中９和〇为正常数
２
，
心ｅ
（
ｌ
，
〇〇
；
）
。因此，我们的离散共识算法模型可


直接被定义为无人机追踪网络的共识收敛时延 

：
Ｔｃ＝
ｔＴ〇〇Ａｎ）  （
３
－
１７）


？＝


１
３１５
．．
能耗模型


在第二章的第节中我们的能耗模型主要考虑中继无人机的能量消耗 

而
一
，，
在本章中，我们将考虑所有追踪无人机在追踪过程的能量消耗。在该过程中，


无
人机的能量消耗依旧主要包含两个方面无人机之间的通信能耗和维持无人机机

 ：
载飞行所需的推进能耗。然而，无人机网络中的通信能耗远远低于推进能耗，



因
此本章我们依旧不考虑这部分
一


。
具体的飞行能耗组成及公式推导，与第二章该部分相似，我们将不再重复描



述，不同之处在于，本章的能耗模型可以被表示为 

：
Ｅ＾
ｆＥｆ｛
ｖｎ，
）  （
３
－
１８）


？＝１


其中尽为每架追踪无人机在时隙《下以速度ｖ飞行时所消耗的推进能量 

。
３２．
问題构建


在本节中，我们主要对本章中所需要的优化问题进行了详细的描述与分析 

。
对多无人机追踪网络中的共识收敛时延和能耗问题进行了效用函数的合并同时

 ，
对追踪过程中的网络共识、中断概率的优化问题分别做了详细的理论分析。追踪



在多无人机追踪网络中不同的网络连接度会严重影响共识算法的收敛时延
，

（具体在第四章分析），网络连通度越大，共识算法的收敛速度越快。这种代数


连通度可以通过改变边的权重来控制 

。
在信道严重恶化的情况下，由于距离的限制，可以允许无人机节点的传输功



率发生变化，
以提高通信链路的质量，
从而增加了拓扑中某些边的权重。通常 

，
３３





在总功率开销固定或开销最小化的情况下为不同无人机链路分配不同的功率是

 ，
个重要的优化问题也就是说在定的总功率开销预算下通过改变不同链


一一
。，，
路的传输功率，可以适当増加或减少拓扑中某些链路的权重，从而可以使网络拓



扑的代数连接度最大化，从而提升共识算法的收敛速度 

。
除此之外，无人机在飞行的过程中，即使在防碰撞范围内，当两架无人机之



间飞行距离过近或过远，而导致的网络拓扑结构变化，其依旧可以影响网络的连



接度，进而改变共识算法的收敛时延。
另外，飞行过程中的飞行轨迹也会影响整


个无人机网络的能量消耗能耗问题依旧是多无人机系统中需要研究的重要问题
， 

。
因此我们的优化问题便是可以通过个整体的效用函数来联合规划每架


一
，，
追踪无人机的轨迹以及每架无人机的传输功率，最小化我们的优化目标，
我们将


该问题可以表述为 

：
ｍｉｎ  （
３－
１９）


２２
ｓＪｃｌ．：
ＩＩ 
ｃ
（［
？］
－
ｃ［
ｎ］  ｜｜
＞  Ｄｎｉｎ， 
Ｖ／
，７  ｅ  ｉＶ，
／Ｖ  

ｊ
；ｉ
ｃ２：Ｔ＜ｄ 


ｔ
ｃ３：６＞
？］＜＾
ｍ［ｍａｘ


其中＆和为共识和能耗系数且满足ＧＧ 
＝
 １。ｃｌ定义了无人机之间的最小距


离参数，以防止每架追踪无人机之间发生碰撞。ｒ表示中继无人机在每个时隙中



的移动时间，因此，ｃ２定义了中继无人机的移动时间范围，
Ｃ３限制了无人机与地


面目标之间的夹角度数确保，目标始终在无人机的观察范围内防止，目标被追丢 

。
３３
．基于ＭＡＤＱＮ算法的多无人机轨迹及功率联合优化算法


在第二章中，我们主要利用了  ＤＱＮ算法完成了中继无人机的轨迹规划，


其
属于种集中式的强化学习算法然而这种集中式的方法可能会带来昂贵的计


一
，，
算复杂度。因此，多智能体深度强化学习（ｍｕｌｔｉａｇｅｎｔ  ＤＲＬ
－
，ＭＡＤＲＬ）可能是


以较低的计算复杂度获得策略的另种方法同时对于处理大规模控制路径


一
。，、
规划或博弈问题多智能体深度强化学习能展现出相对于深度强化学习更高的优
， 

势 

。
３４





３３１
．．
麟论基础


“ ”
强化学习的主要思想就是个不断试错的过程智能体通过与环境不断


一
的交互，利用获得反馈，不断进行信息的迭代和优化，在这个过程中，我们需要


解决的问题通常可以被描述为马尔科夫决策过程 

。
马尔科夫决策过程延展到多智能体系统可以被定义为马尔科夫博弈或随机

 ，
博弈。在随机博弈中，所有智能体会根据当前的环境状态来同时选择并执行他们


各自的动作，这些各自动作带来的联合动作将会影响环境状态的转移和更新， 

并
决定智能体获得的奖励。它可以通过元组〈
＾，
＾，
…
，
＾＾＾，，
… 及
＾来表示其中： 

夕
表示状态集合，
４和厚分别表示智能体的动作集合和奖励集合〖，Ｔ表示环境状


态转移概率，
ｙ表示损失因子。此时，智能体获得的累积奖励的期望可以表示

 ｆ
为 

：
五 免
＇
Ｓ＝
ａ４冗＝
 ２０）
￣？
５５３
＇￣＋
－
＆
 
（）（，
，
，
ｉ） １
 （  Ｉ
 ）
，
。（ 

Ｌ＾
’
ｏ 

．
对于马尔科夫博弈也就是随机博弈就要提到纳什均衡，（Ｎａｓｈ  ｅｑｕｉｌｉｂｒ

ｉｕｍ） 

，
其主要思想就是在多个智能体中达成的个不动点当形成不动点之后其余任



一
，，
意个智能体都无法通过采取其他的策略来获得更高的累积回报在数学上可以


一
表达为 

：
ｉｓ  Ａｇｅｎｔｓ
 （
３
－
２１）


其中＾表示智能体的纳什均衡策略
；／ 

。
３３２
．．
基于ＭＡＤＱＮ算法的联合优化博弈问题及模型定义


由于我们的优化问题具有非凸性和组合性，同时存在多个需要优化的追踪无



人机且他们之间相互影响因此我们可以将该问题建模为个随机博弈并用提


一
，，
出的ＭＡＤＱＮ方法进行求解 

。
在多无人机的追踪网络中我们假定每架无人机可以，
自主决定其飞行轨迹和


传输功率，以获取最大效用Ｒ。
每架无人机的效用是基于当前网络环境的状态和


其它无人机的行为然后网络环境将转变为种新的随机状态
３９］
这取决于之


一
１
，，，
前的状态和之前采取的行动。因此，我们的问题可以被建模为随机博弈



忒八￥其中表示状态空间表示无人机的行动空间表示状态


■
〈
Ｓ，［
４０］。Ｓ，
為ｆ，尸
转移概率，
＆卜為表示通过采取动作為使得状态从
）
Ｓ变为的状态转移概率 

。
因此，在随机博弈中，我们模型的状态、行为和奖励可以被定义为 

：
３５





１
）状态风《］
：每架追踪无人机的状态可以他们的位置坐标表示被定义为， 

：
［＇［
？］，
乃［
？］
ｆ，其中为追踪无人机在时隙《下的水平平面坐

 ｆ
标。因此，我们的状态空间能够被表示为 

：
Ｓ［ｎ］ 
＝
 ｛
ｃ
＾ｎＸｃ＾ｎ］，
．．．
，
＾＾］｝  （
３
－
２２）


每次试验中每架中继无人机的初始状态位置都是随机确定的

一
，（） 

。
２）行动空间為［
？］：在追踪过程中，在每个时隙《下，每架无人机就需要决


定自己的轨迹和相应的传输功率，这些动作将用于改变无人机的行为以


响应每个时隙处的状态。
因此，每架追踪无人机的行动空间可以被表示


为 

：
４？］＝
化 ３２３）
－
［（ 

其中无人机的轨迹行动可以表示为＝
丨丨
，其中ｒｌ
，
［
？］ 

表
示无人机在时隙《下的飞行方向 

表
°
ｆｒｌ．
［
ｗ］ｅ０３６０
，
，ｒｌ
［
ｎ］ｅＺ，
，
［］，
示无人机在时隙／；７下的飞行距离ｒｌ
ＪＭ
ｅＺ。无人机的


功率行动为＜０户＿在每次实验中基于时隙《的当前状态


一
６［
？］，
。，
风《和基于］Ｑ网络的控制策略，每架无人机开始执行动作為［
？］以响应


状态，最优动作使多无人机网络的平均回报最大化 

。
３
）奖励回报式［
？］：
奖励回报定义了每架无人机在当前状态５＾对时隙ｎ中

 ］
所采用的动作４［
？］的影响。在我们的模型中，我们使用整个网络的共识


收敛时延和每架无人机消耗的能量，这两部分的加权和来量化我们的优


化目标，同时考虑，当追踪无人机的轨迹飞出了可观察范围时，应当给


予相应的惩罚户》１
；
［
？］。当所有无人机由于链路时延过大或链路质量不好


而导致的链路中断，使得我们的追踪网络无法共识，也就是说，
共识算


法不收敛，在这种情况下，我们应当给与相应的惩罚ＰＷ２．
［
？
］
。因此， 

我
们的奖励方程可以通过如下这种形式来计算得到 

：
（
［
？］ 
＝
 ＋Ｐｕｌ［ｎ］＋ 
 Ｐｕ２ ［
？］
ＵＭ


１
（
３－
２４）


＝  －
ｈＰｕｌ ｎ］＋Ｐｕ２ ｎ］
＾Ｍ

＾［

  ［ 

，
＾ｒｃ［ｗ］
－
当无人机采取了行动為ｆ
［
ｗ］并且其它无人机釆取了行动足，无人机也

 ｆ
许获得奖励及，［
？］＝
及，
（
《，
５［？］，
４［
？］，
＜［
？］
）
，其中行动向量能够被定


３６





义作为我们的博弈中的可行解当每架无人机在任何个Ｓ下满足以下不等


一
。
［
？］，
式时，我们认为我们的博弈实现了纳什均衡 

：
＾Ｒ 
ｉ
 （
ｎ５［？］，，
４［
？］，
＾－
，  ｗ）  （
３－
２５）


在纳什均衡状态下每架无人机的动作可视为对其他无人机动作的最佳反应，


。
所有无人机都无法从单边偏离中获得收益此外考虑到这种随机博弈是周期


［
４１
］
。，
性的网络环境的状态将在每个回合结束后被重置在每回合中执行所有无



一
。，
，
人机的策略后，从环境中获得累积奖励。
如果所有无人机都能获得有关奖励函数


和状态转换的信息，则可以使用整数规划方法找到纳什均衡。然而，在这种随机


博弈中，
无人机无法获得此类信息。因此，为了解决这个问题，ＭＡＤＱＮ方法被


提出，通过与网络环境交互来实现任何状态下的纳什均衡 

。
３３３
．．


算法流程描述
算法３－
１基于ＭＡＤＱＮ的多无人机轨迹和功率分配联合优化算法



１：


２：初始化经验回放内存Ａ、Ｚ）
２
和马


３：
初始化三个行动值函数２－
１（
＾１丨
６
＊
１）
、
０２（
＞？
，
〇！
２｜
６＞
２）
和２〇３
，
《
３丨
６＞
３）
，其中｜ 

９
为随机权重


４：
初始化三个行动值函数－
（
？｜
或）


和
丨
４）
，
其中权重碑＝
６＞
ｉ
、
巧和色
二


名
５：  ｆｏｒ  ｅ
ｐｉｓｏｄｅ
＝
１， 
Ｍ  ｄｏ


６：  在特定地理区域内随机初始化所有无人机的位置坐标


７：  ｆｏｒ  ｅｐｏｃｈｎ 
＝
 １
，
Ｎｔ
ｄｏ


８：
在状态Ｓ［
ｎ］，每架无人机基于４问＝
／
／
（
５
（
？
）丨
少
）
＋＜选择动作


９：
 每架无人机几个给的行为４［
？］，选择动作６、
％和 

Ａ
执行动作叫和观察奖励扣更新下状态义
一
〇？］
１０：、
％３，
ｉ？
，
］，［ 

１１： 储存转移样本［
？］，
《［
？］，
ＳＭ放入Ａ）


、
１２：
令


３７






１３：  ｆｏｒＵＡＶｉ
＝
ｌ， Ｎｄｏ


１４：
从马、
化和！＾中随机抽取小批量转移样本 

、
（？，
４，
／
＾，
彳）
和（
ｓ
尸  

）
１５：
令


ｇ＝
＜ 
＋ｒｎ
＾
ｘ０＿，２
？，毛４和为Ｗ丨 
）
＋ｒ？
＾
ｘ
Ｑ娜３
？，
４Ｍ＞


）
１６： 对＾＿
＿
认（
１５
／
，
０１
．
１＜丨
沒１／
））
、
＞＾
＿
２２，
＇
（
１？
／
，
〇
２／丨
＾２；
））


和
（（
２
（
点－
ａ卜，
，
《
３批０，
）
利用３、
巧和Ａ，采用梯度下降的方法最小化损




失
１７  ｅｎｄ
： 

１８：
每Ｃ步更新相应的目标网络：
Ｑ、
０，ａ（
＾，２
＝
 ｇ
２


和
ＱＱ
＿
ａｒ
ｇｅｆｉ 
ｔ  

ｉ
１９： Ｅｎｄ ｆｏｒ


２０：  Ｅｎｄ  ｆｏｒ


基于ＭＡＤＱＮ的多无人机轨迹和功率分配联合优化算法如算法３
－
１所示 

。
在我们的随机博弈模型中每架无人机可以被视作，
一
个ＤＱＮ智能体除此之外， 

，
为了减轻每个智能体的动作空间和学习复杂度，我们将每架无人机的三个动作 

，
包括飞行方向ｒｌ
，
［
？］，飞行距离＾／
［
？］和功率选择珂《进行拆分］
，为每个动作分


别创建个新的智能体进行学习这样在我们的ＭＡＤＱＮ模型中我们共有


一
一
，，，
３＃个智能体 

。
除此之外，我们每个ＤＱＮ模型主要由两部分组成：（１）两个深度神经网络


（ＤＮＮ）和（２）
Ｑ
－
学习决策模型。
神经网络可以解决高维动作空间的问题。 

通
过拟合函数而不是Ｑ表来生成Ｑ值，我们可以得到相似的状态和输出动作。 

因
此ＤＮＮ对复杂特征的提取有很好的效果
，。同时，ＤＱＮ有
一
个类似于Ｑ
－
ｌｅａｍｉｎｇ


的更新公式，可以最大化折扣长期回报，
如下所示 

：

＇
Ｑ｛ｓｒ
ｉ４ＥＲ
＇
？］＝
ｎ＋ｙｍＱ［Ｓｎ］？］
４３２６
－

＾
．
［＼［

，
） ｔ
（）  ［，
［（ 

）
［
ｎ］

）
Ｊ
其中７为折扣因子并且满足０＜＾＜１，当７趋于零时无人机主要考虑即时奖

 ，
励。
当／趋于１时，无人机主要考虑未来的奖励 

。
在我们的机制中每架无人机的动作由飞行方向飞行距离和功率选择组成，、 

。
因此，在我们的设计和实现中，我们分别使用三个相同的ＤＱＮ模型对它们进行


３８





训练。它们可以表示为三个行动值函数－
七问，
、
么（
＆？，丨
爲，） 

和
）
么。相应的目标网络可以表示为ｙ丨


ｑ
和在每个ｄｑｎ模型中，我们使用
一
个两层的全连接的神经


网络第层有个神经元第二层有个神经元ＲｅＬＵ用作激活函数
一
。３０，２０。 

。
在学习和更新过程中我们使用经验回放缓冲区来更新和存储收集的环境样

 ，
本。经验回放缓冲区以大小Ｄ初始化。在每个时隙，观察到的状态、

动作、奖励


和下个状态被存储到该缓冲区中然后从该缓冲区中随机抽取小批状态序列


一
一
来更新ＤＱＮ网络。在具体的更新过程中，我们使用梯度下降法来更新权重参数



化ａａ经过定次数的迭代后ａ么么网络的参数被复制到


一
。，
，，
，
网络。我们使用最优网络和ｑ网络的最小均方误差来


定义损失函数。
两个损失函数４＾，
；
）
，
４＾＾４０
，
，
３，
；
）
都可以表示为 

：
五
［
（
２￥＂
＿
 ２（？叫风，
））
１  （
３
＿
２７）


乙化和４的能够以相同的方式被获取
（））
，
，
是目标网络的值，可以


被表示为 

：

＇
ＱＲ？＋＾＂２８）
＾０
＝
〇６３
－
＞
＾

ｓｃｔＶ
ｔａｒ，  ｉ  （） 
，
；；｜；，
（ 


（）
，
和能够以相同方式被获取，
化，能够通过三个损失函数


化）
，
４机，
）人化利用梯度下降来更新
（）
，其可以被计算 

：
ｖ
ａ， 
Ｌ
Ｍ＝
￡
［
ａ＾ｖＡｅ（
（
５
，
，
ｌ
ｆ
，ｉ
＾） 

］
五ＧＳ “ 沒 ▽ ２（  沒
＿
．．
［  （ 
ｙ
， 
１，  Ｉ  １，
） 
先 

Ｊ  １／
）］


（凡能够以相同方式被获取
）


。
在每个时隙更新参数化，
０
２＜
，
＾后行动％，
，
ａ
２，
．
，
％都会停止。
并可根据贪婪算


法进行选择，
即在概率为ｓ的情况下随机探索动作，
并在概率１
－
ｓ为的情况下使


用神经网络决策获得下个动作贪婪算法可以鼓励中继无人机进行探索并防止


一
程序陷入局部最优值 

。
３９





３３４
．．
算法具体训练流程


开■ 炼


计算当前的网名 


络状态 



星
完成回合
 


？
丫 

否
重置中继无人


ｒ §ｒ


中继无人机基于定的
縣癖或最大Ｑ酿
选 

作




〒
一
 ］ ［


中继无人纖行动


作得到麵和下


一
个态

〒
 ］  ［ 


得到转移＾包括当前状

 ，
态动作麵下状态
＇ 
 、、
一
和是酸止将斯储在经 
 ，
ｇ金中

〒 


 １ 
 




否
  


从经验迪中随机取样ｂａｃｈ大

 ｔ
小的样本计算当前网络下的



实际ＱＭ开獅炼 
 ，
图３
－
２  ＭＡＤＱＮ训练模块图


４０





步骤开始进入ＭＡＤＱＮ的模型训练设置训练的回合数为轮 

判
一
：，５００，
断是否完成回合训练，如果完成，则模型训练完毕，如果没有完成，则进入步骤



 
 

〇
步骤二：
随机重置每架无人机的位置状态，状态空间能够被表示为


耶］
＝
＆［
？］，
〇
２［
？］，
．．．
，
以［
ｗ］
｝
，ｃ．
，［
ｎ］为无人机的水平位置坐标 

。
步骤三：
判断是否完成每个回合下的步骤训练，
步骤训练值设置为５０步 

，
如果完成则进入回合判断进入新轮的学习如果没有完成则进入步骤四
一
，，，， 

。
步骤四：中继无人机利用概率超参数ｅ
ｐｓｉｌｏｎ在随机和Ｑ策略间选择动作来


探索环境，在探索环境的过程与环境进行数据交互，该数据包括加入中继后整个


网络的参数，如每条链路的相应的信号与干扰加噪声比、链路速率及链路时延 

。
动作的选取会在飞行方向飞行距离尤＜０尤＾中分别选择特定


。
￡０３６０
，
必［
，
；｜
，
，
步长，根据每次行动，每架无人机会设定其二维轨迹和发射功率 

。
步骤五：得到与环境交互的参数后，通过奖励公式得到相应的奖励值，建立


状态转换同时将得到的转移样本包括当前状态动作奖励下状态和是


一
，，、、、
否动作终止五种状态储存在经验池中 

。
步骤六判断每架无人机的是否完成了遍历如果完成返回步骤三否则

：，，， 

，
进入步骤七 

。
步骤七当经验池中的经验数量大于
：ｂａｔｃｈ的大小时（ｂａｔｃｈ我们设置为５００） 

，
从经验池中随机取出ｂａｔｃｈ大小的样本，计算并更新当前网络的的Ｑ值 


。
步骤八计算当前网络状态回到步骤如果训练完毕输出训练模型

一
：，，， 

。
３４
．
仿真结果与分析


本节对我们提出算法的仿真结果进行了评估和讨论在仿真中我们在 

个
一
。，
大小为２００／ｍｘ２００ｗ的地理区域内部署了  ４架追踪无人机和４个移动用户。
其它


仿真参数如表３
－
１所示 

。
４ 

１




３４
．．１仿真场景


表仿真参数表
３

－

 


参数
  描述  值 ｜｜
Ｐｍａｘ

无人机的最大传输功率 ｌＯＯｄＢｍ



Ｂ

＾ 
１ＭＨｚ


Ｎ



４
／
３
０ 
信道系数 
－
５０ｄＢ



ｒ 
折扣因子 
Ｑ９

 ．
Ｉ 
学习率 
０００００
． 

１
Ｐｕ＼

惩罚因子１

２０


Ｐｕｌ

惩罚因子２２０


 
共识系数０９５
． 

能耗系数 ０．０５


３４２
．．
仿真结果及分析


图３
－
３显示了不同算法下的平均奖励训练结果。我们可以看到相比于，ＤＱＮ


算法，ＭＡＤＱＮ算法在多无人机场景下相比于每个无人机只考虑，

自己优化自己 

，
研究无人机之间的关系以提升整体效果具有更高的优势且算法本身能够实现更


 ，
快的收敛。
除此之外，在ＭＡＤＱＮ算法中，我们分别对比了采用功率分配和未采


用功率分配对训练奖励的影响可以观察到功率分配在定程度上具有更高的


一
，，
平均奖励回报对提高网络的效用值有定的成效验证了我们方案的有效性

一
，， 

。
５００
Ｄ３００
－
 Ｉ 

ｐ
 Ｌ ／
（
殳２００

 
－  一


／
２




ｊ
ｓ  １００
－


／
〇
－

ｊ

ＭＡＤＱＮｗｉｔｈｏｕｔｐｏｗｅｒａｌｌｏｃａｔｏｎ


 ｉ
Ｉ 
ＭＡＤＱＮｗｉ
ｔｈ
ｐ
ｏｗｅｒａｌｌ
ｏｃａｔｏ 
ｎ
 ｉ
ｌｏｏ
－
Ｉ —
ＤＱＮ


０  １００  ２００  ３００  ４００  ５００


ｎｕｍｂｅｒｏｆｔｒａｉｎｅｐｓｏｄｅ


 ｉ
４２





图３
－
３不同算法下的平均奖励训练图



图３
－
４显示了我们的多无人机网络在不同算法和不同测试次数下的共识收敛



时延对比。我们
一
共测试了 ２０次，可以看到，当我们将效用函数，也就是能量


消耗和共识收敛时延函数解耦时采用功率分配的方案明显优于没有采用功率分

 ，
配的方案，可见，功率分配对共识收敛时延的提升是有效果的，除此之外 


，
ＭＡＤＱＮ算法相比于ＤＱＮ算法对共识收敛时延提升上也具有更好的性能 


。
６０
－


ｊ
§
—
ＭＡＤＱＮｗｔｈｏｕｔｐｏｗｅｒａｏｃａｔｏｎ




ｉｌｌｉ
４５
ＭＡＤＱＮｗ
＾  ｉｔｈ
ｐ
ｏｗｅｒａｌｌｏｃａｔｏｎ

 ｉ
ｃ  ＤＱＮｗｉｔｈｏｕｔ
ｐ
ｏｗｅｒａｌｌｏｃａｔｏｎ

 ｉ
４０
Ｓ
ｉ
：＾／Ａ／ｖｙＶＡ


２  ５ ７ １０ １２ １５ １７ ２０


Ｔｅｓｔ  ｎｕｍｂｅ 

ｒ
图３
－
４不同算法下的共识收敛时延对比图


图３
－
５显示了我们的多无人机网络在不同算法和不同测试次数下的能量消耗



对于对比图中我们共测试了２０次可以明显看出相比于随机轨迹来说
一
。，，， 

，
对所有追踪无人机进行轨迹规划都能显著减少能耗，因为无人机的飞行能耗远远



高于传输能耗。
另外，从图中还可以看出，对于ＤＱＮ和ＭＡＤＱＮ算法来说， 

是
否进行功率分配对能耗的影响是微弱的，
功率分配更多是对共识收敛时延带来提


升，验证了我们前期的猜想。但从整体效果来看，ＭＡＤＱＮ算法相比于ＤＱＮ 

来
说，
能耗性能上也带来了微弱的提升 

。
４３





ｔ
ｉ
２８〇
］
－

 ＊
ＭＮｒ＾

 
 ＭＡＤＱＮ ｗｉ
＼
ｔｈｏｕｔｐｏｗｅｒａｌｌｏｃａｔｏｎ

 ｉ
＾
  ＤＱＮｗｈｏｕｔｏｗｅｒａｏｃａｏｎ



■
ｔｔ
８ ｐ
ｉｌｌ
ｉ
２６０
 Ｒａ
＇
ｎｄｏｍ  ｔｒａｅｃｔｏｒ
ｙ

ｇ；  ｊ
ａ 

＞
￡ ２４０


－
２２。
２００ ？


２  ５ ７ １０ １２  １５ １７ ２０


Ｔｅｓｔ  ｎｕｍｂｅ 

ｒ
图３
－
５不同算法下的能耗对比图


３５
．本章小结


在本章中我们研究了改善多无人机之间信息共识收敛时延以及多无人机能

， 

效的第二种策略方案在该方案中我们提出了种基于多智能体深度强化学习



一
。，
算法（ＭＡＤＱＮ），通过联合优化所有追踪无人机的飞行轨迹及其传输功率分配来


改善多无人机追踪网络的连通度共识性能和能效由于联合优化问题的非凸性、。 

，
同时考虑到每架无人机的效用是根据网络环境和其它无人机的行为来确定的， 

我
们可以将该问题建模为个随机博弈问题针对多无人机的离散动作空间以及大


一
状态空间导致的计算复杂度高的问题，我们提出了利用ＭＡＤＱＮ算法来求解该



问题的最优策略，最后通过仿真对我们的方案进行了验证，我们的算法与其它算


法相比，
具有明显的优势，
有效地减少了共识收敛时延和网络的能量消耗 

。
４４


第四章多无人机网络中共识收敛时延分析
 


第四章多无人机网络中共识收敢时延分析


本文提出了针对多无人机追踪场景下改善网络共识收敛时延和无人机系统



能耗的两种策略方案分别包括引入架中继无人机和对无人机网络进行功率分


一
配两种方案能改善共识策略的收敛时延的本质原因都是改变了无人机网络的代
。


数连通度，
其可以通过拉普拉斯矩阵的第二最小特征值来表示。前者引入中继无


人机主要通过增加和删除边来改变网络拓扑结构进步控制网络连通度后者


一
，。
通过功率分配来增加或减少拓扑中某些边的权重来改变网络连通度 


。
本章详细介绍了影响多无人机网络信息共识收敛时延的影响因素并且详细

 ，
分析了前两章提出的方案之所以能提升和改善共识收敛速度的具体原因，同时进


行了仿真，验证了我们相应的分析 

。
４１
．
共识收敛时延的影响因素分析


本节我们主要分析影响共识收敛时延的主要因素首先我们引入些图论中



一
的基本概念，其可以方便我们对共识算法的分析。
其次我们介绍了什么是网络中


的共识问题以及什么会影响共识收敛时延，最后我们给出了仿真验证 

。
４１
．．１图论基础


我们的网络拓扑可以表示为个图沟其中ｊ 表示为该


一
＝＝
 ，， 
图的邻接矩阵，并且邻接元素满足Ｆ 
＝
 表示网络中所有的节点


组成的集合，五为每对节点之间边的集合，
节点的邻居节点集合／，可以表示为


ａ
一 
〇
｝
，其中［
３０
］


：
 
？
，
＝
ＶＪ，
 （
４－
１


）
［
０，  ｏｔｈｅｒｓ


节点ｖ的入度和出度可以分别被表示为
，


：
ｄｅｇ
， ” （
ｖ
，
）
＝
 Ｊ
＝
Ｘ


ｌ
（
４２）


－


Ｎ
ｄｅｇｖ
５＞  ４３
＝．
－
ｏｗ（） （ 

）
＆
，

＝


ｉ
ｙ
４５





图Ｇ的对角矩阵可以表示为Ａ 
＝
 ［
Ａ
ｊ，其中对于所有的／＊＿／都有？＝
０， 

并
且＼＝
＜１
呢。？（〇＾
。因此，基于邻接矩阵的对角矩阵，图＜＾的拉普拉斯矩阵＿／：可以


被定义为 

：
Ｌ 
＝
 Ｌ
（
Ｇ） 
＝
 Ａ－
Ａ （
４４）


－
通过定义可推得拉普拉斯矩阵的每行总和为〇因此对于拉普拉斯图来说，， 

，
总是有个值为的特征值同时我们对拉普拉斯矩阵的特征值按照大小来排


一
０。，
序为，；２２
 ４，其中对于图连通的充分必要条件必须满足
，；１
２
乏０ 

，
这个倒数第二大的特征值叫做连通性特征值，也被叫做费德勒特征值（Ｆｉｅｄｌｅｒ


ｅｉｇｅｎｖａｌｕｅ）
［３１
］
，显然对于连通图来说，满足岑＝
０，
４ 
２０，且ａｗＡ
ｒ＾＾ｉＶ
－
ｌ 

。
４．１．２网络中的共识问題


共识问题在计算机科学中有着悠久的历史是分布式计算领域的基础然而，。 

，
在通信网络角度是指在动态网络中根据所有代理的状态就定数量的利益


一
，，，
达成致换句话说共识是种交互规则用于指定代理与其网络上所有邻居



一一
，，，
之间的信息交换［
４２］


。
因此，离散时间的共识算法可以被表示为 

：
ｘ
，
（
？＋１
）
＝
 ｘ
ｆ
 （
／
）
＋ｓｕｔ
 （
／
）  （
４５）


－
其中表示在时刻的节点值／，ｓ为共识步长，且满足ｓ＞０， 为时刻节


 ｆ
点的输入控制向量主要包括邻居节点的，
一
些相对信息。
一
般通信网络的链路中 

，
通常存在通信时延，因此对于存在通信时延的情况，我们的输入控制向量可以表


示为 

：
Ｕ
Ｍ）
＝
 Ｈａｖ［
ｘ
ｊ（
？
－
 ＾）  
－
 （
＾ 
－
 ）］ 
＝
 ＾（？ 

－
 Ｔ
）  （
４６）


－
其中＆为无人机和无人机之间的共识权重系数
，／
＿／
，Ｚ为图Ｇ的拉普拉斯矩阵 

。
因此离散动态时间共识算法的表达式如下所示
， 

：
（
／＋１
）
＝
 ｘ．
，
 （
ｔ
） 
＋
 ｙ
ｅｎ


，
［
ｘ
ｊ（
ｔ
－
Ｔ
ｙ）
－
 ｘ
，
 （
ｔ
－
 Ｔ
ｙ）］

 （
４７）


－
当  时后文我们会专门定义
＾（），所有无人机的值将逐渐达成共识 

，
即所有状态收敛至同个值
一


：
雙＾〇
，＝
４８）＿
名（）！（（ 

，
表示网络的共识收敛时延。
如果存在通信时延，则网络中的任意节点将


会对来自其他节点的延迟信息进行融合，这将给节点的值带来误差。
除此之外 

。
４６






如果时间延迟足够大，上述方程更有可能不收敛。通过［
３５
］
的分析和证明，我们


可以得到网络中容许时延的最大上界以满足方程收敛条件 

：
＜＾
ｒ  ４９）
— －―
－
（ 

 ４＾
，
Ｇ
７
＿（ 

）
其中表示多无人机网络图Ｇ最大的出度个数，可以被计算 


：
Ｇ、
ｄ臟
兔ａ  ４
＝
（
－
１０）
｛ｆ 

ｊ
４１３
．．
共识算法的收敛性分析及性能仿真


前小节中我们定义了什么叫共识问题这小节我们将具体分析共识问


一一
，，
题的收敛性 

。
首先我们先分析稳定性，我们利用Ｌｙａｐｕｎｏｖ直接法来分析稳定性，选取



ＬｙａｐｕｎｏｖＣａｎｄｉｄａｔｅ  

：

２
Ｔ
Ｖ（ｘ）＝
ｘＬｘ＝
Ｘｘ
 ４
－－
＿
＿
 １１
（ 

）
＾

（７ ）
＾
ｊｅｓ


ｉ
由于Ｚ的特征值都大于等于０，所有我们有Ｓ０
 ，因此我们可知 

，
该系统是有界的，但是我们并不知道会收敛到哪里，但是ＬａＳａｌｌｅ不变集原理告


诉我们，收敛到不变集，系统的不变集也就是Ｆ（
ｘ） 
＝
 ０的点，那么当 

可
推得，对于边ｙｅｓ满足如果图是连通的，这就意味着所有节点满足



＆
＝
 ．．． 
＝
 Ｘ
ｊｙ
，
即系统达到共识 

。
在图连通的状态下，我们可知，系统终将会收敛，且达到共识。但是从［
３６］


的分析和证明可知，即使系统满足可收敛的条件，但是不同的网络拓扑结构， 

即
图结构，会导致共识算法的收敛速度也不同。这个收敛速度，
我们也叫做共识收


敛时延，其可以被定义为 

：

Ｔ４２）

－
１
－

＇
ｃｏｎ  （ 

Ｋ＋
／
？
／
ｌ
＊
＿
（ｉ）！
（ ）
其中９和４为正常数，
＆￡
（
〇，
：
０
， Ａｒ
２
ｅ
（
ｌ
，
ｏｏ
）
。由该式子可以看出，
影响共识收敛


时延的主要因素为；叫做连通性特征值，当毛越大时，越小， 

当
毛越小时，越大。因此，为了验证该结论，我们仿真了不同连通度的图 

：
４７


 


Ｎｅｔｗｏｒｋ  ｔｏ
ｐｏｏｇｙ
ｌ


一 
．
＾
 ＃ＵＡＶ２
 

？＿ｒ 、


、
、
 
、
ＩＩ
，ＵＡＶ１


／
 ｙ

 ｉ
Ｉ ／

 ．
．
．
－
｜ 
ＨＵＡＶ５


？ＵＡＶ４
 



／


／


／
’
？ＵＡＶ６


“
 稀疏
’ ’
图４－
１ 

图
ＤｉｓｔｒｕｂｉｔｅｄＣｏｎｓｅｎｓｕｓ


    


１．
２１１
ＵＡＶ１

 ＵＡＶ２ 



－
１．
１
＾
＼
＼  
ＵＡＶ３


—
Ｕ 
ＵＡＶ４


ＵＡＶＳ



ＵＡＶ６



云 
 ０９   Ｘ、． 
 


－
ｓ
＊ ■
— 
■
一
—
／


一
ｃｕ  ，
巨 ０．
８
－
／ 
１  ／

 ／
？ ／ ７
－


－
０．
Ｃ 

Ｄ
亡０６  ／
－


－
０５
－  

－
０４
－ 
 １  １   １ 


０．
３
０  ２ ４ ６ ８ １ 

０
ｔｉ
ｍｅ（ｓ 

）
“ ”
图４２－
 稀疏图的共识收敛时延


４８






Ｎｅｗｏｒｋ ｏｐｏｏｇｙ
ｔ


ｔｌ
９ＵＡＶ６
 

／＼
／
：

 １


＼
／／
、


＼
？ＵＡＶ３
／ ，   

‘ 一－
…
—
４




；
？ＵＡＶ４
 

：
／  ＼ 

ｉ
＼
ｊｘ

 ？ＵＡＶ２
 






？ＵＡＶ
 

１
“ ”
图４－
３  稠密 

图
ｅｄＣｏｎｓｅｎｓｕｓ

Ｄｉｓｔｒｕｂｉ
ｔ 

１ ＾
 ＵＡＶ１

 ＵＡＶ２



｜
１
 ＵＡＶ３ 
？
＾

ＵＡＶ４



ＵＡＶ５



公  ＵＡＶ６ 


－
０．
９
、
   

￣
［
 ／
．２
 ／ 
８



－
ｏ
ｇ
－
／／
￡ 

／
ｃ＿
 ｉ 


：
ｄ 

ｉ


Ｍ
■


｜
０．
６ｔ
０５
－
 

－
４
 ＇
 １  １
 


０．
０  ２ ４ ６ ８ １ 

０
ｔｉ
ｍｅ（ｓ 

）
“ ”
图４－
４  稠密图的共识收敛时延


“ ” “ ”
从以上四张图可以看出，
稠密图相比于稀疏来说，
共识收敛时延更


“ ”
小，直观来看，
稠密图的边更多，边越多，；越大，从公式角度也可以分


析，，
因此可以看出牟网络连通度可以影响共识收敛


时延，越大，
共识收敛时延越小 

。
４９





４２．
改变网络连通度的方案分析


通过上节的分析我们可知影响共识收敛时延的主要因素来自于
一
， 

；
也叫网络连通度。
本节我们主要针对第二章、第三章提出的方案，具体分析这些


方案是如何改变网络连通度进而提升共识收敛时延的 

。
４２．．１增减拓扑边一
中紙人机總方案


在多无人机网络中，网络连通度的大小主要依赖于网络拓扑结构的变化， 

在
多无人机场景中这种改变网络拓扑的方法也叫编队重构然而在追踪网络中，，。 

，
拓扑的结构的变化主要却决于追踪用户的位置变化这种变化是随机且几乎不可


 ，
规划的，因此编队重构不再适用 

。
但是我们也可以通过增加或删除网络边来控制。然而，增加和删除边以获得


期望的代数连通度是个难问题因此在我们的方案中通过加入 

个
一一一
ＮＰ。，，
新的中继无人机，可以有效改变网络的拓扑结构，
实现增加和删除边的目的。 

我
们的优化问题可以定义为 

：
ｍａｘ／ｉ
ｊ
 （
１
（
ｃ
））  （
４－
１３）


２２
ｓｔｃｌ〇１１
－
１１
＞ＤＶｉｅＮｉ ＾
＾
．．：
｜｜  ；
［］［］ ｜｜
ｍｎｉ
，  ，  ｊ ，  

ｊ
其中Ｃ＝  ［
ｃｆ
，
，表示所有无人机的位置向量。Ｚ为追踪网络的拉普拉斯矩阵。
限制


条件表示在飞行过程中为了避免所有无人机之间可能出现的飞行冲撞 

无
一
，，，
人机的冲撞避免限制，其中Ｉ为任意两架无人机之间的最小间隔距离 

。
显然，由于无人机之间距离和拉普拉斯矩阵之间的非线性依赖性，上述问题


是个非线性优化问题为了便于分析将通过以下操作转换问题
一
（４－
１３）。，
［
３３
］


。
命題１：考虑ｍ维的子空间ｇｅＦ由向量仏 £ 及＇丨
＝
１
，
２，
．．．
，
／？生成 

，
穿
＝
［免而矩阵Ｍ有以下的性质 

：
对于所有非零ｃｅｇ，ＺＭｏＯ，
当且仅当


证明：首先对于非零元素ｃ  ｅｇ可以写成以下形式 


：
ｃ 
＝
 ＋ａ２ｇ２  ＋   … ＋（
４－
１４）


其中为实数且不等于０，也可以写成ｃ 
＝
 ２ｙ，其中


＿ｙ 
＝
 ［
ａ１
，
ａ２，
．．．
，
ａｍｆ，所以，我们可以得到构少＞０，由于 

是
＇
非零向量进步可推得０Ｍ２＞
一
，
（
〇 

。
推论１：对于拉普拉斯矩阵Ｌ，相等于其中


〃
￡及是单位正交矩阵，且满足 

：
５０


第四章多无人机网络中共识收敛时延分析 



Ｕｆ＝
０，  ｉ


＝
＼
ｑＪｑｊ
＝
〇，  ｉ丰ｊ

 
证明：ｉ：＞０且Ｌ１
＝
 ０，因此最小的特征值４（
Ｌ
）
将始终等于零 

，
ｒ
Ｆ
ｒｒ
认（Ｚ）ＳｉＶ－
ｌ，可以证明，对于所有非零ｘｅｌ，其中ｌ
＝
｛
ｃｅ
｜
ｌｃ＝ 〇
｝


，
毛（
Ｌ
）
２０

相等于ｃｉｅ＞０ 

。
因此，联系命题１，我们可以得到ｃＹｃ＞０相等于，
！ＳＹｇ〉。，其中ｇ表示


生成子空间ｘｅｆ的向量矩阵，因此我们的问题（４－
１３）可以转换为 

：
ｍａｘ／ｌ
２
（
Ｚ
（
ｃ
））  （
４－
１６）


２２
ｓｔ．．ｃｌ：
 ｜｜ 
Ｃ
ｌ［
ｎ］ 
－
 Ｃ［
ｎ］ ｜｜
＞  Ｄｍｎｉ
， 
Ｖｉ
，  ｊ
６  Ｎ，
ｉ ＾  

ｊ
ｊ
ｔ
ＱＬ（ｃＱ）
＞０


解决这种非线性优化问题，我们可以利用深度强化学习，具体解决方案描述


在第二章 

。
４２２
．．
增减麟权重一
功率分配方案


另
一
种情况，在信道严重恶化的情况下，由于距离的限制，可以允许无人机



节点的传输功率发生变化，以提高通信链路的质量，从而增加网络拓扑中某些边



的权重，也就是我们所说的共识权重系数，其具体体现为无人机网络中每条链路


的大小，这是我们改变网络连通度的另
一
个角度。通常，在总功率开销固


定或开销最小化的情况下为不同无人机网络链路分配不同的功率也是个重要


一
的优化问题 

。
因此上述功率优化问题可转化为个非线性规划问题
一
，


：
ｍａｘ／ｌ
２（
Ｚ
）  （
４－
１７）


 ／   ＼
？
ＮＮ
ｓｔ．．ｃｌ：  ＶＶｌＯｌｏｇ  —
＜
＾
／
（
ｄＢ）


ｔｆｎ  ｛
Ｐｉ
ｊ 

Ｊ
ＱＬ（ｐ）Ｑ＞０


其中ｉ表示权重为ｗ的拉普拉斯矩阵，每条边的权重可表示为％。
２表示生成


Ｏ表示在总功率Ｖ被分配后获得拉普拉斯矩阵
’
子空间ｘｅｆ的向量矩阵，ｉ）


，
表示完成功率分配后的共识权重。解决这种非线性优化问题，我们依旧可以利用


深度强化学习，具体解决方案描述在第三章 


。
５ 

１
 


４３
．
仿真结果及性能评估


本节我们主要对上节所提出的两个方案分别进行仿真评估和讨论在仿真


一
中我们在个大小为２００ｗｘ２００ｗ的地理区域内部署了架追踪无人机其他



一
，
４。
仿真参数如表４－
１所示 

。
表仿真参数表
４

－





参数 描述
  值 ｜
Ｐｍａｘ

无人机的最大传输功率 
ｌＯＱｄＢｍ



Ｂ

Ｍ 
１ＭＨｚ


Ｎ

４



 ＾ 
信道系数 
－
５０ｄＢ


￣ 

￣
Ｄｍｍ  防冲撞距离 ２０ｍ 
ＤｉｓｔｒｉｂｕｔｅｄＣｏｎｓｅｎｓｕｓ


Ｌ５ °
｜
Ｌ２５  —  —
 ＵＡＶｌ


｜
ＬＯＯ ＵＡＶ２
—


－ 
％  ／  ＵＡＶ３



／
０７５
－
 ＵＡＶ４


—
０  ２５  ５０  ７５  １００  １２５  １５０  １７５  ２００


ｔｉｍｅ ｍｓ
（ 

）
Ｄｉｓｔｒｂｕｔｅｄ  Ｃｏｎｓｅｎｓｕｓ  ｗｔｈ  ｒｅ
ｉｉｌａｙ  ＵＡＶ


１５〇

．
１
Ｅ ＂
 ＵＡＶｌ


｜    
—
 ＵＡＶ２


 ＵＡＶ３
—
１．００
－


丟  Ｉ  
 ＵＡＶ４


° ７５
＇


 ｒｅａ  ＵＡＶ
 
－ 
２ ｙ
ｌ
０  ２５  ５０  ７５  １００  １２５  １５０  １７５  ２００


ｔｉｍｅ ｍ
（ｓ 

）
图４－
５方案一
收敛时延对比图


５２


第四章多无人机网络中共识收敛时延分析 



ｃ ＤｉｓｔｒｉｂｕｔｅｄＣｏｎｓｅｎｓｕｓ


０ 


１５０


－
ｇ
．
ＵＡＶ１

  

￣
〇Ｌ２５－ 
Ｃ —
 ＵＡＶ２


ｕｌ  —
ＵＡＶ３


Ｕ ／


０７５
．
－
 ／ … …
ＵＡＶ４


Ｕ 
（
Ｉ     Ｉ
Ｉ
ＩＩ 

Ｉ
ｂ  ０ ２０ ４０ ６０ ８０ １００ １２０


ｔｉｍｅ ｍｓ（ 

）
ｃ ＤｉｓｔｒｉｂｕｔｅｄＣｏｎｓｅｎｓｕｓｗｉｔｈ
ｐｏｗｅｒａｌｌｏｃａｔｏｎ

 ｉ
１５０


－
＾ 

＊
〇１２５
．
－

—
 ＵＡＶ１ 
＂

Ｅ ／ＵＡＶ２


—
／
０
ｃ
１ 
Ｌ０°
 ／
／
 －－－
 ＵＡＶ３


．


０７５ ｉ
．
－

 ＵＡＶ４


ｕ
」 


ｂＯ ２０ ４０ ６０ ８０ １００ １２０


ｔｉｍｅ ｍｓ（ 

）
图４６－
方案二收敛时延对比图


图和图分别为我们所提方案和方案二的共识收敛时延对比图 

从
一
４－
５４６－
图中可以看，当我们以网络连通度为优化目标，
最大化夾（
Ｚ），并分别从增减拓


扑边以及增减链路权重的角度来优化我们的无人机网络部署都可以减少共识收

 ，
敛时延，
仿真结果验证了我们的理论分析 

。
４４
．本章小结


本章我们主要针对改变网络连通度可以减少共识收敛时延的具体原因详细


 ，
分析了影响多无人机网络信息共识收敛时延的影响因素网络连通度并通过方



一
案验证了我们的分析其次我们还详细分析了前两章提出的方案之所以能提升和

。 

改善共识收敛速度的具体原因，
同时进行了仿真，验证了我们的分析及方案的有


效性 

。
５３





５４


第五章总结与展望
 




５１
．
研究内容总结


近年来，无人机被部署在各种各样的应用中，从搜索救援到野火监测，从移



动物体的追踪到地理映射等标追踪是无人机的关键应用之其主要任务是


一
。
目，
通过将目标保持在其视野内来跟踪地面上的移动目标。与单无人机相比，团队式


的无人机在协作任务方面具有显著优势多无人机协同追踪，目前受到了广泛的关


注。在追踪场景中，为了实现对目标精准的追踪，有效的分布式估计方法，也就


是网络共识策略越来越受到重视。然而，在多无人机追踪网络中，追踪无人机的


移动性会严重影响网络的性能，导致信道环境复杂多变，网络拓扑会随时发生改



变些现有的通信链路也会发生频繁地中断因此无人机之间的网络连通度


一
，，，
很容易受到影响，导致通信质量下降，严重影响共识策略的准确性和收敛时延 


，
以至于无法满足追踪要求。通过分析，我们可知，共识收敛时延与网络连通度密



切相关。
除此之外，无人机在追踪和共识的过程中，能效优化对于由电池供电的


无人机来说也是个关键问题和性能指标因此针对以上指标本文主要提出


一
。，，
了改善追踪网络连通度、提升多无人机追踪网络共识收敛时延及网络能效的两种


方案。我们的主要研究工作和成果可以总结如下 

：
首先我们以增加网络拓扑边的方式建立了个新的网络框架将移动中继



一
，，
无人机部署到多无人机追踪网络中，以适应通信环境。通过中继无人机的轨迹设


计为共识算法性能的改进提供了新的契机基于该框架本文分别提出了 

种
一
，。，
基于ＤＱＮ的中继无人机部署算法与基于ＤＱＮ的中继无人机轨迹规划算法，


分
别优化了网络的共识收敛时延能效以及追踪网络的共识成功概率及网络中断概
、


率。
仿真结果表明我们基于ＤＱＮ的算法相比于Ｑ
－
ｌｅａｒｎｉｎ
ｇ算法、随机位置部署


算法来说都具有更好的性能，且利用我们的算法寻找最佳部署位置时，可以用更


少的步骤获得更高的回报 

。
其次我们以多无人机追踪网络为基本部署框架提出了种基于ＭＡＤＱＮ


一
，，
算法的多无人机轨迹和功率分配联合优化方案以优化网络的共识收敛时延和能

 ，
效我们对多无人机追踪网络中的共识收敛时延和能耗问题进行了效用函数的合
。


并，并利用ＭＡＤＱＮ算法来求解该问题的最优策略，通过仿真对我们的方案进


行了验证，与其它优化方法相比，我们的方案具有明显的优势，有效地改变了网


络的拓扑权重，同时，所提出的方案确实可以有效地减少共识收敛时延和网络的


能量消耗 

。
５５





最后，我们基于前两个方案提升共识时延的具体原因，利用图论详细分析了


影响多无人机网络信息共识收敛时延的影响因素一
网络连通度通过对网络拉普

 ，
拉斯矩阵的第二最小特征值进行仿真，网络连通度确实可以影响共识收敛时延 

，
且第二最小特征值越大，共识收敛时延越小。
最后，
从前两个方案的优化角度建


模、建立优化问题，仿真结果验证了我们相应的分析，从原理解释了我们的方案


确实可以减少共识收敛时延 

。
综上所述，本文主要考虑在多无人机追踪场景下，为了实现精准追踪、快速


共识，针对改善追踪网络的共识收敛时延及能效问题进行了研究。通过对多无人


机追踪网络进行系统建模分别以增减网络拓扑边和增减网络拓扑权重两种方式， 

，
提出了优化共识收敛时延和能效的两种方案此外，，还具体分析了影响共识收敛


时延的具体原因，并给出了相应的仿真验证 

。
Ｓ２
．后续工作展望


无人机的多种应用包括目标追踪，然而，在复杂的追踪任务背景下，单架无



人机的能力往往很有限，无法满足精确、连续追踪目标的要求，因此，本文主要


聚焦多无人机协作的追踪场景并对追踪问题中的个重要问题也就是共识策


一
，，
略进行了研究，但是由于时间有限，未能对该问题进行更深入的研究，现将该问


题的进步研宄工作总结如下
一


：
１
）考虑多无人机之间的任务分配


前本文虽然考虑了多无人机的追踪但是仅仅聚焦在追的情况也就


一一
目，，
是架无人机追踪个目标但随着追踪目标的增多追踪环境变复杂追

一一一 

一
，、，
也许存在资源利用效率低的问题因此未来我们可以考虑追多或多追多的


一
，，，
场景在这种情况下个有效的追踪任务分配是实现多无人机精准追踪的关键
一
。， 

。
在分布式的控制架构下，将更加依赖于无人机之间可靠的信息和数据交换，
以及


实时动态的策略变化同时有效的路径规划也是实现任务分配的个重要研宄子


一
课题 

。
２）考虑多无人机对追踪目标的精准定位


本文对追踪目标信息的定位来源于地面中央控制中心的信息传输，然而 

，
在实时动态的追踪场景中考虑无人机之间独立完成标的定位定程度上可



一
，目，
以省去些不必要的信息传输减少通信时延前几种定位方法中多向定


一
，。
目，，
位对于精确确定用户目标位置非常重要，对于这种方法，至少需要对节点与三个


不同的无人机定位置之间的距离进行三次估计。距离估计通常使用基于时间或


（接收信号强度）
＿
基于接收信号强度（ＲＳＳ）的技术来完成。同时，利用无人机


５６


 


定位，因为其在更高的高度，阴影较少，且满足视距通信，因此可能会产生更高


的ＲＳＳ分辨率 

。
３）考虑目标预测及信息补偿估计算法


本文在考虑共识策略的时候，只考虑了如何通过改变网络连通度来提升共识


的收敛时延，进而减少收敛时延所带来的共识误差，然而，通信链路时延所带来


的共识误差并没有考虑，因此，我们可以考虑用机器学习的方法来对追踪目标的


移动轨迹进行预测也可以在每架无人机上使用滤波器预测来在其余无人机的通
， 

信延迟信息，通过共识算法与机器学习及滤波算法相结合，得到通信时延信息补



偿的估计算法，进而实现对目标更精准的估计 

。
５７





５８


参考文献 



转文献


［
１
］  Ｓｏｎｇ 
Ｙ Ｘ，
ｉ
 Ｑ，  Ｘｉｎｇ  Ｘ  ｅｔ  ａｌ  Ｍｕｌｔｉ，
．
－
ＵＡＶ  ｃｏｏｐｅｒａｔｉｖｅ  ｍｕｌｔｉ－
ｔａｒ
ｇｅｔ  ａｌｌｏｃａｔｉｏｎ  ｍｅｔｈｏｄ  ｂａｓｅｄ  ｏｎ


ｄｉｆｆｅｒｅｎｔｉａｌ ｉｔｈｍ［Ｃ］／／２０２０３９ｔｈ
ｅｖｏｌｕｔｉｏｎａｒｙ  ａｌｇｏｒ   ＣｈｎｅｓｅＣｏｎｔｒｏＣｏｎｆｅｒｅｎｃｅ
ｉ  ｌ 
 （
ＣＣＣ）．  ＩＥＥＥ， 
２０２０ 

：
１６５５－
１６６０ 

．
［
２］ Ｌｉｕ  Ｘ  Ｌｉｕ  Ｙ  Ｃｈｅｎ  Ｙ  Ｒｅｎｆｏｒｃｅｍｅｎｔ  ｌｅａｒｎｉｎｇ  ｉｎ  ｍｕ
，，
．ｉｌｔｉ
ｐｌｅ
－
ＵＡＶ  ｎｅｔｗｏｒｌｃｓ：  Ｄｅｐｏｙｍｅｎｔ  ａｎｄ

 ｌ
ｍｏｖｅｍｅｎｔｄｅｓｉｇｎ［Ｊ］  ． ＩＥＥＥＴｒａｎｓａｃｔ  ｉｏｎｓ  ｏｎ  Ｖｅｈｉｃｕｌａｒ  Ｔｅｃｈｎｏｌｏｇｙ， 
２０１９，
６８（８）： ８０３６８０４９－


．
［
３］ Ｚｅ－
ｌｉｎｇＣ，  Ｑｉ  ＷＹｅ， 
－
ｑｎｇ 
Ｙ  Ｒｅｓｅａｒｃｈ  ｏｎ  ｏｐｔｍｚａｔ
ｉｉｏｎ  ｍｅｔｈｏｄ  ｏｆｍｕ
．ｉｉ  ｌｔｉ
－
ＵＡＶ  ｃｏｌｌａｂｏｒａｔｉｖｅ  ｔａｓｋ


ｐｌａｎｎｉｎｇ［Ｃ］／／２０１８  ＩＥＥＥ  ＣＳＡＡＧｕ  ｉｄａｎｃｅ， 
Ｎａｖｉ
ｇａｔｉｏｎ  ａｎｄ  Ｃｏｎｔｒｏｌ  Ｃｏｎｆｅｒｅｎｃｅ  （ＣＧＮＣＣ）． ＩＥＥＥ 

，
２０１８ １：
－
６ 

．
［
４］ Ｌｉ Ｂ Ｆｅ，
ｉ Ｚ  ＺｈａｎｇＹ 
，

．  ＵＡＶＣｏｍｍｕｎ  ｉｃａｔｉｏｎｓ  ｆｏｒ  ５Ｇ  ａｎｄ  Ｂｅ
ｙｏｎｄ：  ＲｅｃｅｎｔＡｄｖａｎｃｅｓ  ａｎｄ  Ｆｕｔｕｒｅ


Ｔｒｅｎｄｓ［
Ｊ
］
． ＩＥＥＥ  Ｉｎｔｅｒ
ｎｅｔ  ｏｆ  Ｔｈｎｇｓｉ  Ｊｏｕｒ
ｎａｌ，  ２０１９２２４：１
－
２２６３ 

．
［
５］ Ｄｕｔｔａ  Ｒ， 
Ｓｕｎ  ＬＰａｃｋＤ，
 ．  Ａ  ｄｅｃｅｎｔｒａｌｚｅｄｉ  ｆｏｒｍａｔｉｏｎａｎｄ   ｎｅｔｗｏｒｋｃｏｎｎｅｃｔｉｖｉｔｙ 

ｔｒａｃｋｉｎｇ 
ｃｏｎｔｒｏｌｌｅｒ  ｆｏｒ


ｍｕｌｔｉｐｌｅ  ｕｎｍａｎｎｅｄ  ｓｙｓｔｅｍｓ［Ｊ］． ＩＥＥＥＴｒａｎｓａｃｔ  ｉｏｎｓ  ｏｎ  Ｃｏｎｔｒｏｌ  Ｓｙｓｔｅｍｓ  Ｔｅｃｈｎｏｌｏｇｙ， 
２０１７， ２６（６） 

：
２２０６２２－
１３ 

．
［
６］  Ｓｏｎｇ 
ＹＸＱＸ， 
ｉ
 ， 
ｉｎｇ 
Ｘ， 
ｅｔ  ａｌ．  ＵＡＶ  ｃｏｏｐｅｒａｔｉｖｅ  ｍｕｌｔｉ
－
ｔａｒｇｅｔａｌｌｏｃａｔｉｏｎｍｅｔｈｏｄ  ｂａｓｅｄ  ｏｎ  ｄｉｆｅｒｅｎｔｉａｌ
 
Ｃｏｎｆｅｒｅｎｃｅ（ＣＣＣ）ＥＥＥＥ
ｅｖｏｌｕｔｉｏｎａｒｙ  ａｌ
ｇｏｒｉｔｈｍ［Ｃ２０２０３９ｔｈＣｈｎｅｓｅＣｏｎｒｏｌ２０２０６５５６６０
－
／／   ｉ  ｔ  ．  ：１１ 

．
］  ， 
［
７］  Ｃｕｉ Ｙ  Ｒｅｎ，
Ｊ
， 
ＤｕＷ  ｅｔ 
，
 ａｌ．  ＵＡＶ  ｔａｒ
ｇｅｔ  ｔｒａｃｋｉｎｇ  ａｌｇｏｒｉｔｌａｍ  ｂａｓｅｄ  ｏｎ  ｔａｓｋ  ａｌｌｏｃａｔｉｏｎ  ｃｏｎｓｅｎｓｕｓｆＪ］ 

．
Ｊｏｕｒｎａｌ  ｏｆＳ 
ｙｓｔｅｍｓ  Ｅｎｇｉｎｅｅｒｉｎｇ  ａｎｄ  Ｅｌｅｃｔｒｏｎｉｃｓ， 
２０１６，
２７（６）： １２０７－
１２１８ 

．
［
８］  Ｙｕ  Ｚ， 
ＷａｎｇＺ  Ｇｕａｒａｎ 
．ｔｅｅｄ  ｃｏｓｔ  ｃｏｎｓｅｎｓｕｓ  ｆｏｒ  ｍｕｌｔ
ｉｐ
ｌｅ  ｇｅｎｅｒａｌ  ｄｙｎａｍｉｃ  ｓｙｓｔｅｍｓ  ｗｉｔｈ  ｓｗｉｔｃｈｉｎｇ


ｔｏｐｏｌｏｇｉｅｓｆＪ］．  ＩＥＥＥＡｃｃｅｓｓ 
， 
２０１９， 
７： ３７０８８
－
３７０９９ 

．
［
９］ Ｊｉａｎ  Ｈ  Ｒｏｎｇｈａｏ  Ｚ  Ｈ
，
．ｉｅｒａｒｃｈｉｃａｌ  Ｃｏｎｓｅｎｓｕｓ  Ｐｒｏｂｌｅｍ  ｖｉａ  Ｇｒｏｕｐ  Ｉｎｆｏｒｍａｔｉｏｎ  Ｅｘｃｈａｎｇｅ［Ｊ］． ＩＥＥＥ


Ｔｒａｎｓａｃｔｉｏｎｓ  ｏｎ  Ｃｙｂｅｒ
ｎｅｔｉｃｓ， 
２０１８，
４９２３５５：
－
２３６１ 

．
［
１０］  Ｓｕｔｔｏｎ  Ｒ  Ｓ，
ＢａＲｔｏＡＧＲｅ   
．  ｉｎｆｏｒｃｅｍｅｎｔ  ｎｎｇＡｎＩｎｔｒｏｄｕｃｔ
Ｌｅａｒｉ：   ｉｏｎ［Ｊ］．  ＩＥＥＥＴｒａｎｓａｃｔ  ｉｏｎｓｏｎ   Ｎｅｕｒａ 

ｌ
Ｎｅｔｗｏｋｓｒ
， １９９８，９（５）：１０５４ 

．
［
１１
］ 
Ｌｕｏｎｇ  Ｎ  Ｃ  Ｈｏａｎｇ  Ｄ  Ｔ  Ｇｏｎｇ  Ｓ  ｅｔ  ａ，？９
ｌ．  Ａｐｐｌｉｃａｔｉｏｎｓ  ｏｆ  ｄｅｅｐ  ｒｅｎｆｏｒｃｅｍｅｎｔ  ｌｅａｒ
ｎｉｎｇｉｎ

 ｉ
ｃｏｍｍｕｎｉｃａｔｉｏｎｓ  ａｎｄｎｅｔｗｏｒｋｎｇ  ｉ：  Ａ  ｓｖｉｒｖｅ
ｙ［Ｊ］． ＩＥＥＥＣｏｍｍｕｎ  ｉｃａｔｉｏｎｓ  Ｓｕｒｖｅｙｓ  ＆  Ｔｕｔｏｒｉａｌｓ， 
２０１９ 

，
２１
（
４）： ３１３３
－
３１７４ 

．
［
１２］  Ｃｈｉ  ＨＬＣｈｅｎＺＴａｎｇ

， 

，  
Ｊ，  ｅｔａｌ  ．  ＥｎｅｒｇｙＥｆ
ｉｃ－
ｉｅｎｔ  ＵＡＶＣｏｎｔｒｏ  ｌ ｆｏｒ  Ｅｆｅｃｔｉｖｅ  ａｎｄ  Ｆａｉｒ  Ｃｏｍｍｕｎｉｃａｔｉｏｎ


Ｃｏｖｅｒａｇｅ：  Ａ  Ｄｅｅｐ  Ｒｅｎｆｏｒｃｅｍｅｎｔ  Ｌｅａｒ
ｎｉｉｎｇ  Ａｐｐｒｏａｃｈ［Ｊ］  ＩＥＥＥ  Ｊｏｕｒｎａｌ  ｏｎ  Ｓｅｌｅｃｔｅｄ  Ａｒｅａｓ  ｉｎ
．


Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ， 
２０１８，３６（９
）
：２０５９２０７０－


．
［
１３
］ 
ＬｕＸｉ
，  Ｌｉｕ  Ｙ  Ｃｈｅｎ  Ｙ  Ｒｅｎｆｏｒｃｅｍａｉｔ  ｌｅａｒｎｎｇ  ｉｎ  ｍｕｌｔｉｐｌｅ
，
．ｉｉ
－
ＵＡＶ  ｎｅｔｗｏｒｋｓ  Ｄｅｐｏｙｍｅｎｔ  ａｎｄ

 ：ｌ
ｍｏｖｅｍｅｎｔｄｅｓｇｎ［Ｊ］  ｉ． ＩＥＥＥＴｒａｎｓａｃｔ  ｉｏｎｓ  ｏｎ  Ｖｅｈｉｃｕｌａｒ  Ｔｅｃｈｎｏｌｏｇｙ， 

２０１９， 
６８（８）： ８０３６－
８０４９ 

．
５９





４］Ｚｅｎｇ  Ｃ  Ｑ  Ｗ  Ｙｅ  Ｙ  Ｒｅｓｅａｒｃｈ  ｏｎ  ｏｐｔｍｉｚａｔｉｏｎ ｍｅｔｈｏｄ  ｏｆ  ＵＡＶ  ｃｏｌｌａｂｏｒａｔｉｖｅ  ｔａｓｋ



－
１ｌｉｉ．ｉ
［，５
ｐｌａｎｎｉｎｇ［Ｃ］／／２０１８  ＩＥＥＥ  ＣＳＡＡＧｕ  ｉｄａｎｃｅ， 

Ｎａｖｉ
ｇａｔｉｏｎ  ａｎｄ  Ｃｏｎｔｒｏｌ  Ｃｏｎｆｅｒｅｎｃｅ  （ＣＧＮＣＣ）． ＩＥＥＥ 

，
２０１８ １：
－
６ 

．
５］ Ｓｉｎ
ｇｈ  Ｓ  Ｋ  Ａｇｒａｗａｌ  Ｓｉｎｇｈ  ｅｔ  ａｌ  Ｏｎ  ＵＡＶ  ｓｅｌｅｃｔｉｏｎ  ａｎｄ  ｐｏｓｉｔｉｏｎｂａｓｅｄ  ｔｈｒｏｕｇｈｐｕｔ
－
１ 
 ．
［ｊ
ｍａｘｉｍｚａｔｉｏｎｉ ｉｎｍｕｌｔｉ 
－
ＵＡＶ  ｒｅｌａ
ｙｎｇｎｅｔｗｏｉｋｓ［Ｊ］
ｉ

． ＩＥＥＥＡｃｃｅｓｓ 
， 
２０２０， 
８  １４４０３９
：
－
１４４０５０ 

．
［
１６］  Ｌｉｕ  Ｘ，  Ｌｉｕ  Ｙ  Ｃｈｅｎ  Ｙ  Ｒｅｎｆｏｒｃｅｍｅｎｔ 
，
．ｉｌｅａｒ
ｎｉｎｇ  ｉｎ  ｍｕｌｔｉｐｌｅ
－
ＵＡＶ  ｎｅｔｗｏｒｋｓ：  Ｄｅｐｌｏｙｍｅｎｔ  ａｎｄ


ｍｏｖｅｍｅｎｔｄｅｓｉｇｎ［Ｊ］  ．  ＩＥＥＥＴｒａｎｓａｃｔ  ｉｏｎｓ  ｏｎ  Ｖｅｈｉｃｕｌａｒ  Ｔｅｃｈｎｏｌｏｇｙ，  ２０１９， 
６８（８）： ８０３６－
８０４９ 

．
１７］  Ｃｈｉ  Ｈａｒｏｌｄ，  Ｌｉｕ，  ｅｔ  ａｌ  Ｅｎｅｒ－
Ｅｆ
ｉＢｃｉｅｎｔ  ＵＡＶ  Ｃｏｎｔｒｏｌ  ｆｏｒ  Ｅｆｆｅｃｔｉｖｅ  ａｎｄ  Ｆａｉｒ  Ｃｏｍｍｕｎｉｃａｔｉｏｎ


ｇｙ
．
［，
Ｃｏｖｅｒａｇｅ：  Ａ  Ｄｅｅｐ  Ｒｅｉｎｆｏｒｃｅｍｅｎｔ  Ｌｅａｒｎｉｎｇ  Ａｐｐｒｏａｃｈ［Ｊ］  ＩＥＥＥ  Ｊｏｕｒ
ｎａｌ  ｏｎ  Ｓｅ．ｌｅｃｔｅｄ  Ａｒｅａｓ  ｉ 

ｎ
Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ，  ２０１８，３６
（
９）２０５９２０７０
：
－


．
８
 Ｓｈｉ  Ｘ  Ｂｉ  Ｂ  Ｚｈａｎｇ  Ｑ  ｅｔ  ａｌ  Ｃｏｎｓｅｎｓｕｓｂａｓｅｄ  ｍｕｌｔｉｕａｖ  ｔａｒｇｅｔ  ｔ
ａｃｋｉｎｇ  ｗｉｔｈ  ｃｏｍｍｕｎｉｃａｔｉｏｎ

 －－
１．
［］，，，
ｄｅｌａｙｓ［Ｃ］／／２０ｎａｔｉｏｎａｌ  Ｃｏｎｆｅｒｅｎｃｅ  ｏｎ  Ｉｎｔｅｌｌｉ
７  ９ｔｈ  Ｉｎｔｅｒ
ｇｅｎｔ  ＨｕｍａｎＭａｃｈｎｅ  Ｓｙｓｔｅｍｓ  ａｎｄ


－
１ｉ
Ｃｙｂｅｒ
ｎｅｔｉｃｓ（ＩＨＭＳＣ）． ＩＥＥＥ， 
２０１７，
２：  ３３２－
３３６ 

．
［
１９］  Ｍａｏ  Ｘ  Ｇｕ  Ｙ  Ｙｎ  Ｗ  Ｗａｋ  ｐｒｏｘｉｍａｌ  ｇｒａｄｉｅｎｔ  Ａｎ  ｅｎｅｉｇｙｅｆ
，，
ｉｃｉｅｎｔ  ａｌｇｏｒｉｔｈｍ  ｆｏｒ  ｃｏｎｓｅｎｓｕｓ
ｉ．ｌ：
－
ｏｐｔｍｉｚａｔｉｏｎ［Ｊ］
ｉ． ＩＥＥＥ  Ｉｎｔｅｒ
ｎｅｔｏｆ   Ｔｈｎｇｓｉ  Ｊｏｕｒ
ｎａｌ，  ２０１８， 
６（２）：  ２０４８－
２０６０ 

．
［
２０
］ 
ＹｕＺＷａｎｇＺＧｕａｒａｎｔｅｅｄＣｏｓｔＣｏｎｓｅｎｓｕｓ

，  
．     ｆｏｒ  Ｍｕｌｔｉ
ｐｌｅ  ＧｅｎｅｒａＤｙｎａｍｌ  ｉｃ Ｓｙｓｔｅｍｓ  ＷｉｔｈＳｗｉｔｃｈｎｇ


 ｉ
Ｔｏｐｏｌｏｇｉｅｓ［Ｊ］．  ＩＥＥＥＡｃｃｅｓｓ 
， 
２０１９， 
７３７０８８
：
－
３７０９９ 

．
［
２１
］
ＨｏｕＪ，  Ｚｈｅｎｇ  Ｒ  Ｈ．ｉｅｒａｒｃｈｉｃａｌ  ｃｏｎｓｅｎｓｕｓ
 ｐｒｏ
ｂｌｅｍ  ｖａ  ｇｒｏｕｐ  ｉｎｆｏｒｍａｔｉｏｎ  ｅｘｃｈａｎｇｅ［Ｊ］  ＩＥＥＥ
ｉ 
 ．
ｔｒａｎｓａｃｔｉｏｎｓ  ｏｎ  ｃｙｂｅｒｎｅｔｉｃｓ， 
２０１８，
４９（６）：  ２３５５２３６－
１ 

．
Ｐ２］  Ｈａｏ  Ｌ，Ｑｉ  Ｘ，  Ｙａｎｇ  Ｚ．  Ｔｏｐｏｌｏｇｙ  ｏｐｔｍｉｓｅｄ  ｆ
ｉｘｅｄｉ
－
ｔｉｍｅ  ｃｏｎｓｅｎｓｕｓ  ｆｏｒ  ｍｕｌｔｉ－
ＵＡＶ  ｓｙｓｔｅｍ  ｉｎ ａ


ｍｕｌｔｉｐａｔｈｆａｄｎｇ  ｃｈａｎｎｅｌｆＪ］  ｉ．  ＩＥＴＣｏｍｍｕｎ  ｉｃａｔｉｏｎｓ， 
２０２０，
１４（１１
）
： １７３１
－
１７３９ 

．
［
２３］  Ｔｒｉｍｂｌｅ  Ｊ， 
Ｐａｃｋ  ＤＲｕｂ， 
ｌｅ  ＺＡｄ．   ｉｓｔｒｉｂｕｔｅｄ  ｓ
ｙｓｔｅｍｆｏｒｃｏｎｎｅｃｔｉｖｉｙ
  ｔ

ｔｒａｃｋｉｎｇｗｉｔｈｕａｖｓ［Ｃ］／／２０

 １９  ＩＥＥＥ


Ｎａｔｉｏｎａｌ  Ａｅｒｏｓｐａｃｅ  ａｎｄ  Ｅｌｅｃｔｒｏｎｉｃｓ  Ｃｏｎｆｅｒｅｎｃｅ  （ＮＡＥＣＯＮ）． ＩＥＥＥ２０１９， 
：１５５
－
１６２ 

，
［
２４］  Ｚｈａｎｇ 
ＹＺｈａｎｇＢＸＹ
，  
， 
 ｉ
， 
ｅｔａｌ  ．  ＴｒａｎｓｍｉｔｔｅｒＳｅｌｅｃｔｉｏｎａｉｄｅｄ
－
  Ａｄａｐｔｉｖｅ  ＣｏｎｓｅｎｓｕｓＢａｓｅｄＤａｔａ－
  Ｓｈａｒｉｎｇ


ｆｏｒ  ＵＡＶ  Ｓｗａｎｎｓ［Ｊ］． ＩＥＥＥＡｃｃｅｓｓ 
， 
２０１９， 
ＰＰ（９９）：１
－


Ｌ
２５］ＫＮｇｏｃ  ＴＨＫａｗａｎｈｉ  ＭＡ  Ｓｙｎｃｈｒｏｎｚｉｎｇ  Ａ
ｐｐｒｏａｃｈ  ｆｏｒ  ＮｏｎＵｎ
［
ｉｋｕｃｈｉ Ｓ  ，

， 
ｉｓ
，  ｅｔ  ａｌ．  ｉ
－
ｉｆｏｎｎ  Ｔｉｍｅ


－
Ｖａｒｙｉｎｇ  Ｃｏｍｍｕｎｉｃａｔｉｏｎ  Ｄｅｌａｙｓ  ｏｎ  ｔｈｅ  ＡｖｅｒａｇｅＣｏｎｓｅｎｓｕｓ   ｏｆ  Ｍｕｌｔｉ  Ａｇｅｎｔ  Ｓｙｓｔｅｍ［Ｃ］／／２０１９  ＩＥＥＥ



Ｖｅｈｉｃｌｅ  Ｐｏｗｅｒ  ａｎｄ  Ｐｒｏ
ｐｕｌｓｉｏｎ  Ｃｏｎｆｅｒｅｎｃｅ（ＶＰＰＣ） 
． ＩＥＥＥ， 
２０１９： １
－
６ 

．
２６］ＳｕＨＺｈａｎｇ  Ｔ  Ｑａｎ  ＬＣｏｎｓｅｎｓｕｓ  ｃｏｎｒｏｌ  ｓｔｒａｔｅｎｖｅｒｔｅｒ  ａｒ  ｃｏｎｄｉｔｉｏｎｉｎ
 ｅｔ  ａ 
ｇｙ  ｏｆｇ  ｇｒｏｕｐ  ｆｏｒ


ｉｌｔ ｉｉ

．
［，，，
ｒｅｎｅｗａｂｌｅ  ｅｎｅｉｇｙ 
ｃｏｎｓｕｍｐｔｉｏｎｂａｓｅｄ  ｏｎ  ｄｉｓｔｒｉｂｕｔｅｄａｄ  
＾ｔｉｖｅ  ｓｙｓｔｅｍ［Ｃ］／／２０  １７９２：
－
９６ 

．
［
２７］  Ｓｕｎ  Ｃ， 
Ｙａｎｇ  Ｃ，  Ｆａｎ  Ｓ  ｅｔ  ａｌ  ５
．Ｄｅｓｉ
ｇｎ  ｏｆ  ｄｉｓｔｒｉｂｕｔｅｄ  ｃｏｎｓｅｎｓｕｓ  Ｋａｌｍａｎ  ｆｉｌｔｅｒ  ｂａｓｅｄ  ｏｎ  ｅｎｅｒｇｙ


ｏｐｔｉｍｉｚａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ  ｏｆ  ｔｈｅ  ３３ｒｄ  Ｃｈｉｎｅｓｅ  Ｃｏｎｔｒｏｌ  Ｃｏｎｆｅｒｅｎｃｅ．  ＩＥＥＥ， 
２０１４： ７１３３
－
７１３８ 

．
６０



参考文献 


［
２８］  ＣｈｅｎＪ 
， 
Ｙｅ  Ｆ， 
Ｊｉａｎ
ｇ 
Ｔ， 
ｅｔａｌ  ．  ＵＡＶ－
ｅｎａｂｌｅｄ  Ｗｉｒｅｌｅｓｓ  ＥｎｅｒｇｙＴｒａｎｓｍ 
ｉｓｓｉｏｎ  ａｎｄ  Ｉｎｆｏｎｎａｔｉｏｎ  Ｃｏｌｌ 

ｅｃｔｉｏｎ
Ｂａｓｅｄ  ｏｎ  Ｃｏｎｓｅｎｓｕｓｂａｓｅｄ－
 Ｂｕｎｄｌｅ  Ａｌ
ｇｏｒ
ｉｔｈｍ［Ｃ］／／２０２０  ９ｔｈ   Ａｓｉａ－
Ｐａｃｉｆｉｃ  Ｃｏｎｆｅｒｅｎｃｅｏｎ   Ａｎｔｅｎｎａｓ


ａｎｄ  Ｐｒｏ
ｐａｇａｔｉｏｎ  （
ＡＰＣＡＰ）．  ２０２０ 

．
２９］  Ｍａｏ  Ｘ，  Ｇｕ  Ｙ  Ｙｉｎ  Ｗ  Ｗａｌｋｒｏｘｉｍａｌａｄｉｅｎｔ  Ａｎ  ｅｎｅｉ＾ｙｅｆ
ｉｆｉｃｉｅｎｔ  ａｌｇｏｒｉｔ
ｉｉｍ  ｆｏｒ  ｃｏｎｓｅｎｓｕｓ
 ｇｒ
－


ｐ
．：
［，
ｏｐｔｉｍｉｚａｔ
ｉｏｎ［Ｊ］． ＩＥＥＥ  Ｉｎｔｅｒ
ｎｅｔｏｆ   Ｔｈｎｇｓｉ  Ｊｏｕｒｎａｌ， 
２０１８，６
（
２
）
：  ２０４８２０６０－


．
［
３０］ ＬｕＸ  Ｘ，ｉａｏ  Ｌ， 
ＤａＣｉ
， 
ｅｔａｌ．  ＵＡＶＡ－
ｉｄｅｄ５Ｇ  Ｃｏｍｍｕｎｉｃａｔｉｏｎｓｗｉｔｈ
   ＤｅｅｐＲｅ 
ｉｎｆｏｒｃｅｍｅｎｔ  Ｌｅａｒｎｉｎｇ


Ａｇａｉｎｓｔ  Ｊａｍｍｉｎ
ｇ［Ｊ］． ２０１８ 

．
［
３１
］  Ｓｈａｍｓｏｓｈｏａｒａ  Ａ  Ｋｈａ，
ｌｅｄｉ  ＭＡｆｇｈａｈ  Ｆ
，  ｓ  ｅｔ  ａｌ  ．Ｄｉｓｔｒｉｂｕｔｅｄ  ｃｏｏ
ｐｅｒａｔｉｖｅ  ｓｐｅｃｔｒｕｍ  ｓｈａｒｉｎｇ  ｎ  ｕａｖ

 ｉ
ｎｅｔｗｏｒｋｓ  ｕｓｎｇ  ｍｕｌｔｉａｇｅｎｔ  ｒｅｎｆｏｒｃｅｍｅｎｔ  Ｉｅａｍｎｇ［Ｃ］／／２０
ｉ
－
ｉｉ１９  １６ｔｈ  ＩＥＥＥ  Ａｎｎｕａｌ  Ｃｏｎｓｕｍｅｒ


Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ  ＆Ｎｅｔｗｏｒｋ  ｉｎｇ 
Ｃｏｎｆｅｒｅｎｃｅ  （
ＣＣＮＣ）． ＩＥＥＥ， 
２０１９： １
－
６ 

．
［
３２
］ 
Ｏｉａｌｌｉｔａ  Ｕ， 
Ｓａａｄ  ＷＢｅｔ， 
ｔｓｔｅｔｔｅｒ  Ｃ  Ｃｅ．ｌｌｕｌａｒｃｏｎｎｅｃｔｅｄ－
 ＵＡＶｓ  ｏｖｅｒ５Ｇ  ：  Ｄｅｅｐ 
ｒｅｉｎｆｏｒｃｅｍｅｎｔ  ｌｅａｒｎｉｎ


ｇ
ｆｏｒ  ｉｎｔｅｒｆｅｒｅｎｃｅ  ｍａｎａｇｅｍｅｎｔ［Ｊ
］
．  ａｒＸｉｖｐｒｅｐｒｎｔ

ｉ  ａｒＸｉｖ：  １８０１．０５５００，
２０１８ 

．
［
３３
］ 
Ｌｉｕ  ＹＱ， 
ｉｎ  ＺＣａＹ， 
ｉ 
， 
ｅｔａｌ  ．  ＵＡＶ  ｃｏｍｍｕｎｉｃａｔｉｏｎｓ  ｂａｓｅｄｏｎｎｏｎｏｒｈｏｇｏｎａｌｍｕｌｔｉｐｅａｃｃｅｓｓ［Ｊ］
 
－
ｔ  ｌ  ． ＩＥＥＥ


Ｗｉｒｅｌｅｓｓ  Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ，  ２０１９，
２６（１
）
： ５２５７－


．
［
３４］  Ｌｉｕ  Ｃ  Ｈ， 
ＣｈｅｎＺＴａｎｇ 
， 
Ｊ，ｅｔａｌ．  Ｅｎｅｒｇｙ－
ｉｃｉｅｎｔ
ｅｆｆ  ＵＡＶ  ｃｏｎｔｒｏｌ  ｆｏｒ  ｅｆｆ
ｅｃｔｉｖｅ  ａｎｄ  ｆａｉｒ  ｃｏｍｍｕｎｉｃａｔｉｏｎ



ｃｏｖｅｒａ
ｇｅ：  Ａ  ｄｅｅｐ  ｒｅｎｆｏｒｃｅｍｅｎｔ  ｉｌｅａｒ
ｎｉｎｇ  ａｐｐｒｏａｃｈｆＪ］  ＩＥＥＥ Ｊｏｕｒ
ｎａ．ｌ ｏｎＳｅｌｅｃｔｅｄ  Ａｒｅａｓ  ｉ 

ｎ
Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ，  ２０１８，３６（９）：  ２０５９２０７０－


．
ＯＳａｂｅｒ  Ｒ，  Ｍｕｒｒａｙ  ＲＭ  Ｃｏｎｓｅｎｓｕｓ
３５］ ｆａｔｉ
ｐｒｏｂｌｅｍｓ  ｎｎｅｔｗｏｒｋｓ  ｏｆａｇｅｎｔｓ  ｗｉｔｈ  ｓｗｉｔｃｈｎｇ  ｔｏｐｏｌｏ＾


－
ｌ  ．ｉ   ｉ
［ 
ａｎｄｔｉｍｅｄｅｌａｙｓ［Ｊ］
－
．  ＩＥＥＥＴｒａｎｓａｃｔ  ｉｏｎｓ  ｏｎ  Ａｕｔｏｍａｔｉｃ  Ｃｏｎｔｒｏｌ
，
２００４，
４９９
（）
：  １５２０－
１５３３ 

．
［
３６
］  Ｏｆａｔｉ
ｌ
－
Ｓａｂｅｒ  ＲＭｕｒｒａｙＲＭ  Ｃｏｎｓｅｎｓｕｓ
，  
 ．
 ｐｒｏｂｌｅｍｓ  ｉｎｎｅｔｗｏｒｋｓ  ｏｆａｇｅｎｔｓ  ｗｉｔｈ  ｓｗｉｔｃｈｎｇ  ｔｏｐｏｌｏｇｙ


  ｉ
ａｎｄ  ｔｉｍｅｄｅｌａｙｓ［Ｊ］
－
．  ＩＥＥＥＴｒａｎｓａｃｔ  ｉｏｎｓｏｎ   Ａｕｔｏｍａｔｉｃ  Ｃｏｎｔｒｏｌ， 
２００４，４９（９
）
；  １５２０－
１５３３ 

．
［
３７
］  Ｚｈｏｕ  Ｚ  Ｆｅｎｇ 
Ｊ
 ，，
ＧｕＢ，  ｅｔ  ａｌ  ．Ｗｈｅｎ  ｍｏｂｉｌｅ  ｃｒｏｗｄ  ｓｅｎｓｉｎｇ  ｍｅｅｔｓ  ＵＡＶ：  Ｅｎｅｒｇｙｅｆｆｉｃｉｅｎｔ  ｔａｓｋ
－


ａｓｓｉ
ｇｎｍｅｎｔ  ａｎｄ
 ｒｏｕｔｅ  ｐａｎｎｉｎｇ［Ｊ］Ｉ． ＩＥＥＥ  Ｔｒａｎｓａｃｔｉｏｎｓ  ｏｎ  Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ， ２０１８， ６６
（
１１
）
： ５５２６ 

－
５５３８ 

．
［
３８］ Ｈｏｕ  Ｊ，  Ｚｈｅｎｇ  Ｒ  Ｈｉｅｒａｒｃｈｉｃａｌ  ｃｏｎｓｅｎｓｕｓ  ｐｒｏｂｌｅｍ  ｖｉａ  ｇｒｏｕｐ  ｎｆｏｒｍａｔｉｏｎ  ｅｘｃｈａｎｇｅ［Ｊ］
．ｉ．  ＩＥＥＥ


ｔｒａｎｓａｃｔｉｏｎｓ  ｏｎ  ｃ
ｙｂｅｒ
ｎｅｔｉｃｓ， 
２０１８，４９（６）：  ２３５５２３６－
１ 

．
［
３９
］ 
ＭｅｓｂａｈＭＯｎｉ ．   ａｄｙｎａｍｉｃ  ｅｘｔｅｎｓｉｏｎｏｆｔｈｅ
   ｔｈｅｏｒｙｏｆｇｒａｐｈｓｆＣｌ／  
ｙ＾ｒｏｃｅｅｄｉｎｇｓ  ｏｆｔｈｅ２００２   Ａｍｅｒｉｃａｎ


ＣｏｎｔｒｏＣｏｎｆｅｒｅｎｃｅｌ
 （
ｉＥＥＣａ
ｆ  ｔ．  ＮｏＣＨ３７３０．  １
）
．  ＩＥＥＥ， 
２００２，
２： １２３４－
１２３９ 

．
４０］  ＺＨＡＮＧ  ＱｉｎｅＺＨＵ  Ｈｕａｙｏｎｇａｎｄ  ＳＨＥＮＬｎｃｈｅｎｇＡＳｕｒｖｅｙ  ｏｆＣｏｎｓｅｎｓｕｓＴｈｅｏｒｙ  ｎ  Ｍｕ 

－
［ｇｊ
ｉ
，  
 ｉ．     ｉｌｔｉ
Ａｇｅｎｔ  Ｓ
ｙｓｔｅｍ［Ｃ］．  Ｎａｖｉ
ｇａｔｉｏｎ  ａｎｄ  Ｃｏｎｔｒｏｌ  Ｃｏｎｆｅｒｅｎｃｅ，  ２０１０：  ４０４６－


．
［
４１］ＳｈｉＸ？  Ｂｉ Ｂ，  Ｚｈａｎｇ  Ｑ，  ｅｔ  ａｌ  Ｃｏｎｓｅｎｓｕｓｂａｓｅｄ  ｍｕｌｔｉｕａｖ  ｔａｒｇｅｔ  ｔｒａｃｋｉｎｇ  ｗｉｔｈ  ｃｏｍｍｕｎｉｃａｔｉｏｎ
．
－

 －
ｄｅｌａｙｓ［Ｃ］／／２０１ｎａｔｉｏｎａｌ  Ｃｏｎｆｅｒｅｎｃｅ  ｏｎ  Ｉｎｔｅｌｌｉｇｅｎｔ  Ｈｕｍａｎ
７  ９ｔｈ  Ｉｎｔｅｒ
－
Ｍａｃｈｉｎｅ  Ｓｙｓｔｅｍｓ  ａｎｄ


Ｃｙｂｅｒｎｅｔｉｃｓ（ＩＨＭＳＣ）． ＩＥＥＥ， 

２０１７，
２： ３３２３３６－


．
６ 

１



［
４２］  Ｈａｏ  Ｌ，Ｑｉ  Ｘ，
Ｙａｎｇ  Ｚ．  Ｔｏｐｏｌｏｇｙ  ｏｐｔｉｍｉｓｅｄ  ｆ
ｉｘｅｄ－
ｔｉｍｅ  ｃｏｎｓｅｎｓｕｓ  ｆｏｒ  ｍｕｌｔｉ－
ＵＡＶ  ｓｙｓｔｅｍ  ｉｎａ


ｍｕｌｔｉｐａｔｈ  ｆａｄｎｇｉ

ｃｈａｎｎｅｌ［Ｊ］． ＩＥＴＣｏｍｍｕｎ
 ｉｃａｔｉｏｎｓ， 
２０２０，
１４（１１
）
：１７３０－
１７３８ 

．
６２



基于共识策略的多无人机组网研究 黄芷菡

Uploaded by

Copyright:

Available Formats

You might also like

基于共识策略的多无人机组网研究 黄芷菡

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于共识策略的多无人机组网研究 黄芷菡

Uploaded by

Copyright:

Available Formats

密 级 保密 期 限

近年来 ， 无 人机 （ Ｕ ＡＶ ） 以 其体积 小 、 机动性 强 成本低等优 点 、 

同 完 成追踪 任务 目 前受到 了 广 泛 的关注 

在 多 无 人机追 踪 网 络 中 ， 无人机之 间 准确及 时 的 信 息 交互是精准

中 继 无人机 的 过程 分 为 两个步骤 。 首先提 出 了 基于 Ｄ ＱＮ 的 部 署 算法

随机位置部署 算法相 比 ， 本文提 出 的 算法具有更好 的 性能 

表明 ， 本文提 出 的 算法与 其它 算法相 比 ， 具有 明 显 的 优 势 ， 有 效地减

综上所述 ， 本文主要针对追踪场景 下 ， 网 络 的共识 收敛时延 和 能

３ ． ３ 基于 ＭＡＤ Ｑ Ｎ 算法 的 多 无 人 机 轨 迹及功 率 联合优 化 算 法 ． ． ． ． ． ． ． ３４

无人机应 该 能够通过 使用 新 的 网 络技术和 协议 ， 自 主操作 、 相 互协调 以及 与 部署

完成追踪 任务受 到 了 广泛关注 ， 可见 ， 在无 人 机 蜂 群 进 行 运 动 多 目 标追 踪 的 研 究

个无 人机节 点 发生故 障 时 ， 通过 与 其他相 邻 节 点 的 信 息 交 互 ， 追 踪任务 也 可 以 完

因此 ， 在链路失效和 创 建 （ 即 可变 网 络拓 扑 ） 下 ， 解决具有 定 向 信 息流 的动态代

好地处理 了 复杂 的 状态空 间 和 时 变 的 环境 ， 且在许多 学 习 任务 中 ， 即 使 是 零域 知

识 也 能提供最先进 的 性 能 。 在无人机 网 络场景下 ， 针 对无 人 机 的 离 散 动 作 空 间 以

随 着 无 人 机机 群 数 量 的 増 多 ， 信 息 共识 的 路径 也 变得复 杂 ， 接收到 的信 息可能会

了 无人机协 同 地面蜂 窝 网 络 ， 其 中 多 个无人机作 为

于信噪 比 ， 提 出 了 两种 无人机选择策略 ， 优化 了 整 个 系 统 的 中 断 概率 、 吞 吐量和

这些论文 大 都 是考虑利 用 多 无人机 网 络来提升蜂 窝 网 或地面用 户 的 某些性 能指

在有 限 的 收敛时 间 内 控制 精度 文献 作者提 出 了 种 贪婪扰动 启 发式 

于分散 向 量 的 连通性跟 踪算法 有 效提 高 了 追踪 网 络 的 连通 性 文献

系 统 的平均共识 问 题 提出 了 种 受 限 传输和 同 步算法 即 使在存 在不对称 

目 前这些研 究 多 集 中 于 从无人机 的 控制 层 面解决共识 收敛 问 题 没有论文 从 网 络

在共识策 略 的 能量消 耗 问 题上 文献 作者设计 了 种共识策略 该策

衡任务分配 的 公平性 能够适应用 户 的 不确 定 性 文献 作 者针对无线传感

有 效地降低 了 节 点 能量消 耗 从而大大延长 了 无线传感器 网 络 的 寿命 文 献

作 者 将基 于共识 算法应 用 到 无人机无线 网 络 中 ， 在全局 得分最大化 的情况 下 ， 

者开发 了 种用 于分散 致性优化 的 阶算法 它 通过 图 中 的 个行走 系列

节 点 传递 个标记 行走期 间 访 问 的 代理计 算其 私 有 函 数 的 梯 度 并 更新 令 牌

仿真表 明 该算法 比 目 前 最 先进 的 算法 更节 能 。 目 前 没有 研 究讨 论基于 共识 策略 的

化 学 习 和 深度 强化学 习 的无人机 中 继方案 。

需 要 参与 中 继或感知 作 者开发 了 种 分 布式机制 利 用 强化学 习 算法学 习 最 优

任务分配 文献 作 者 针对 蜂 窝 连接 的 无人机 网 络 提出 种 基于深度强

化 学 习 的 干扰 感 知 路 径规划 方案 ， 该方案实现 了 更好 的 无线延 迟和 传输速率 。

址 （ Ｎ Ｏ ＭＡ ） 用户 。 研宄 了 将 Ｎ Ｏ ＭＡ 技术集 成到 无人机 网 络 中 的 设计挑战 ， 

公平性 能 耗 和 连接性 调用 了 种 深度强化学 习 Ｄ ＲＬ 算法 对无人机进 行

节 能控制 的 是找 到 种 控 制 策略 指 定 每个无人机在每个 时 隙 中 的 移 动方式

因此 ， 四 个参数 ： 平均 覆盖分数 、 公 平 性指 数 平 均 能耗 和 能源 效率被 联 合优 化 、 

了 改善 多 无人机之 间 信 息 共 识 收敛 时延 以 及 多 无人机 能效 的第 种 策略方案 在

来 的 研 宄 工 作进行 了 展 望 可 以 为后 续进 步 的 研 究提供 建议和 参考

在 多 无 人 机 的 追踪场 景 中 ， 由 于无人机 的 高速移动 和 通信 范 围 受 限 的 问 题 

无人 机之 间 的 通信 链路容 易 被频繁 打 断 造 成 多 无人机协 作追踪 时对 多 个移 动 ，

标无法精 确 共识 ， 同时 ， 随 着 无人 机机群 数量 的 增 多 ， 信 息 共识 的 路径也变得 复

种 策 略方案 在 该 方案 中 我们 提 出 了 种 基于 Ｄ ＱＮ 算法通过部 署 中 继无人机

识 中 断概率模型 其次 引 入 架 中 继无人机 利用 Ｄ ＱＮ 算法找 到 满 足 最优共

初 始化追踪无人机 的 分 布 时 ， 找到 最优 中 继 无人机 的 起始 位置 。 阶段二 ： 当 追踪

在追踪场景 中 我们考虑在 个地理 区 域 内 部署 由 Ｗ 架追 踪无人机 的 集合

＃ Ｖ 和 架 中 继无 人机组 成 的 多 无人机追踪 系 统 在该系统中 追踪无

人 机和 中 继 无 人机 分 别 以 速度 在同 高度 飞行 每架追踪 无人机负 责追踪相

前 多 无 人 机追踪 网 络 的 网 络 传 输 性 能 其主要 影 响 网 络连通度 以 及 信 息 共 识 的 方

集 所有追踪 无 人机 的 位置状 态 信 息 并 能 够 发送命 令 要求 中 继 无人 机可 以 移动 到

时 隙 的长度是 同 时 本文还 假设 无人机之 间 的 通信 信 道为 １ ０５ 

为高斯方差 表示 网 络 的 传输带 宽 表示接 收无人机 处 的 加

在 多 无人机追踪 网 络 中 ， 能量消 耗 主 要 包含两个 方面 ：

其 中 ＾ 是用 来平衡 由 表 面摩擦 引 起 的 寄生 阻力 所 需 的 功 率 是用 来平衡

其中 表示 中 继无人 机在第 ｎ 个 时 隙 中 的 飞 行距离 ， 表 示 中 继 无 人 机在

某些通信 链路有可 能 因 链 路 Ｓ ＩＮＲ 质 量差而 中 断 。

延 限制 的 需求 在 中 已 经被证 明 是 网 络 系 统 达 到 共识 收 敛 的 充要条件 换句话

基于共识策略的多无人机组网研究黄芷菡

基于共识策略的多无人机组网研究黄芷菡

基于共识策略的多无人机组网研究黄芷菡

密级 保密期限

近年来，无人机（ＵＡＶ）以其体积小、机动性强成本低等优点、 

同完成追踪任务目前受到了广泛的关注 

在多无人机追踪网络中，无人机之间准确及时的信息交互是精准

中继无人机的过程分为两个步骤。首先提出了基于ＤＱＮ的部署算法

随机位置部署算法相比，本文提出的算法具有更好的性能 

表明，本文提出的算法与其它算法相比，具有明显的优势，有效地减

综上所述，本文主要针对追踪场景下，网络的共识收敛时延和能

３．３基于ＭＡＤＱＮ算法的多无人机轨迹及功率联合优化算法．．．．．．．３４

无人机应该能够通过使用新的网络技术和协议，自主操作、相互协调以及与部署

完成追踪任务受到了广泛关注，可见，在无人机蜂群进行运动多目标追踪的研究

个无人机节点发生故障时，通过与其他相邻节点的信息交互，追踪任务也可以完

因此，在链路失效和创建（即可变网络拓扑）下，解决具有定向信息流的动态代

好地处理了复杂的状态空间和时变的环境，且在许多学习任务中，即使是零域知

识也能提供最先进的性能。在无人机网络场景下，针对无人机的离散动作空间以

随着无人机机群数量的増多，信息共识的路径也变得复杂，接收到的信息可能会

了无人机协同地面蜂窝网络，其中多个无人机作为

于信噪比，提出了两种无人机选择策略，优化了整个系统的中断概率、吞吐量和

这些论文大都是考虑利用多无人机网络来提升蜂窝网或地面用户的某些性能指

在有限的收敛时间内控制精度文献作者提出了种贪婪扰动启发式 

于分散向量的连通性跟踪算法有效提高了追踪网络的连通性文献

系统的平均共识问题提出了种受限传输和同步算法即使在存在不对称 

目前这些研究多集中于从无人机的控制层面解决共识收敛问题没有论文从网络

在共识策略的能量消耗问题上文献作者设计了种共识策略该策

衡任务分配的公平性能够适应用户的不确定性文献作者针对无线传感

有效地降低了节点能量消耗从而大大延长了无线传感器网络的寿命文献

作者将基于共识算法应用到无人机无线网络中，在全局得分最大化的情况下， 

者开发了种用于分散致性优化的阶算法它通过图中的个行走系列

节点传递个标记行走期间访问的代理计算其私有函数的梯度并更新令牌

仿真表明该算法比目前最先进的算法更节能。目前没有研究讨论基于共识策略的

化学习和深度强化学习的无人机中继方案。

需要参与中继或感知作者开发了种分布式机制利用强化学习算法学习最优

任务分配文献作者针对蜂窝连接的无人机网络提出种基于深度强

化学习的干扰感知路径规划方案，该方案实现了更好的无线延迟和传输速率。

址（ＮＯＭＡ）用户。研宄了将ＮＯＭＡ技术集成到无人机网络中的设计挑战， 

公平性能耗和连接性调用了种深度强化学习ＤＲＬ算法对无人机进行

节能控制的是找到种控制策略指定每个无人机在每个时隙中的移动方式

因此，四个参数：平均覆盖分数、公平性指数平均能耗和能源效率被联合优化、 

了改善多无人机之间信息共识收敛时延以及多无人机能效的第种策略方案在

来的研宄工作进行了展望可以为后续进步的研究提供建议和参考

在多无人机的追踪场景中，由于无人机的高速移动和通信范围受限的问题 

无人机之间的通信链路容易被频繁打断造成多无人机协作追踪时对多个移动，

标无法精确共识，同时，随着无人机机群数量的增多，信息共识的路径也变得复

种策略方案在该方案中我们提出了种基于ＤＱＮ算法通过部署中继无人机

识中断概率模型其次引入架中继无人机利用ＤＱＮ算法找到满足最优共

初始化追踪无人机的分布时，找到最优中继无人机的起始位置。阶段二：当追踪

在追踪场景中我们考虑在个地理区域内部署由Ｗ架追踪无人机的集合

＃Ｖ和架中继无人机组成的多无人机追踪系统在该系统中追踪无

人机和中继无人机分别以速度在同高度飞行每架追踪无人机负责追踪相

前多无人机追踪网络的网络传输性能其主要影响网络连通度以及信息共识的方

集所有追踪无人机的位置状态信息并能够发送命令要求中继无人机可以移动到

时隙的长度是同时本文还假设无人机之间的通信信道为１０５ 

为高斯方差表示网络的传输带宽表示接收无人机处的加

在多无人机追踪网络中，能量消耗主要包含两个方面：

其中＾是用来平衡由表面摩擦引起的寄生阻力所需的功率是用来平衡

其中表示中继无人机在第ｎ个时隙中的飞行距离，表示中继无人机在

某些通信链路有可能因链路ＳＩＮＲ质量差而中断。

延限制的需求在中已经被证明是网络系统达到共识收敛的充要条件换句话

增加和删除边以获得期望的代数连通度是个难问题因此在我们的方案

除此之外，在无人机的飞行过程中，中继无人机的飞行轨迹也会影响整个无

的收敛时延和中继无人机的能耗都能较低。

其中表示无人机之间的最小距离阚值。ｃｌ定义了最小的距离参数，以防止

保证了训练数据的相对独立性并能避免发散除此之外也是种破

个状态＾并基于网络选择个动作４因此我们可以定义中继无人机的状

在学习和更新过程中我们使用经验回放缓冲区来更新和存储收集的环境样

神经网络决策获得下个动作贪婪算法可以鼓励中继无人机进行探索并防止程

否完成回合训练，如果完成，则模型训练完毕，如果没有完成，则进入步骤二 

如果完成则进入回合判断进入新轮的学习如果没有完成则进入步骤四

状态转换同时将得到的转移样本包括当前状态动作奖励下状态和是

步骤七：计算当前网络状态，回到步骤

步骤进入追踪无人机位置初始化模块通过随机函数初始化追踪无人

机的起始位置分布使其随机分布在定的区域大小内初始化分布时每架

定所有追踪无人机是静态的，通过建模过程，计算当前追踪无人机网络的网络状

用训练模型进行测试，得到满足条件的最优中继无人机的位置坐标 

在本节中，当所有追踪无人机开始追踪任务时，追踪无人机的位置在每个时

当追踪无人机开始持续移动时，整个追踪无人机的网络拓扑将时刻发生变化 

网络拓扑的变化将会导致些无人机之间的链路可能会随时发生中断这使得