基于共识策略的多无人机组网研究 黄芷菡

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 72

密 级 保密 期 限

: :


避耆 部 f Af

硕 士 学位论文

题 目 : 基 于 共 识 策 略 的 多 无 人机


组网研究 

学 号 :  2 0 1 911 0349

姓 名 :

黄芷菡 

专 业  信 息 与 通 信 工 程


导 师 :

许晓东 

学 院  信 息 与 通 信 工 程


2 02 2 年 5 月 27 

中国 ■

北京


密 级  保密 期 限
: 

分f 却 t 大聲


硕 士 学 位论文

题 目  基 于共识 策 略 的 多 无 人 机 组 网 研 究
: 

学号 :  2 0 1 9 1 1 03 4 9 

姓名 :

mm 

专 业  信 息 与 通 信 工 程
: 

导师 :

许晓东 

学 院  信 息 与 通 信 工 程
: 

2 02 2 年 05 月 27 


S e c r e c y C l a s s i f
i ca ti o n :  S e c re c yP e r i od 

B e u n g  U n v e r s ty  o f
i 
 i i

|薦  Po sts  a n d

T e l e c o m m u n c at o n s

 i i

T hes i s fo r  M a s t e r D e g re e

 

To p i c :  R e s e a r c h o nm u lti

UAV  n e tw o r k

b a s e d  o n  c o n s e n s u s s t r a t e g y 

S t u d e n tN o . :
 
20 1 91 1 03 4 9 

Cand i d a te :
 
黄龙 菌 

S u bj e c t :  I n fo r m a t i o n a n d  C o m m u n c a t i o n E n g i n e e r i n g
i 

S u p e rv i s o r  :

许晓东 

I n s ti t u te :
 
S c h o o l  o f  I n fo r m a t i o n  a n d 


Com m un i c a t i o n Eng i n eer n g



2 022 0 5 27
.
 .
基 于 共 识策 略 的 多 无 人机组 网 研究

摘 

近年来 , 无 人机 ( U AV ) 以 其体积 小 、 机动性 强 成本低等优 点 、 



在 人们 生活 的 各个领域得 到 了 广 泛 的 应 用 。
与 单 无人机相 比 , 团 队式


的 无 人机系 统在执 行追踪 、 监控 、 检查和 自 动化工 厂等协 作任务方面


具有显 著优势 其中 作 为无 人机领域 的 个重要应用 多 无 人机协



。 ,

同 完 成追踪 任务 目 前受到 了 广 泛 的关注 



在 多 无 人机追 踪 网 络 中 , 无人机之 间 准确及 时 的 信 息 交互是精准




追踪 目 标 的 关键 。
目 前 分布 式 协 同 估 计方 法 越来越 受到 重视 , 多智能


体共识策略就是其 中 种 重要 的 方法 有 效 的 共识策 略可 以 通过 与 相


邻 无人机 的 信 息交 互完 成追踪任务 。 然而 , 在 多 无 人机 追 踪 网 络 中 

由 于追 踪 无 人机 时刻 在 移 动 , 且信 道环 境 复 杂 多 变 , 网络拓扑会随时


发生 改变 ,

些 现有 的 通信 链 路 也会 发 生 频繁地 中 断 , 导致通信质 量


下降 , 严重影响 共识策略 的 准确 性和 收敛 时 延 , 以 至于 无法 实 现精 准


追 示
£ 

在追踪 网 络 中 , 影 响 共识 收敛 时 延 的 主要 因 素是 网 络 的 连通度 

且 无 人机 在 追踪 和 共 识 的 过程 中 能效也是 个 最基本 的 性 能 指 标




因此 , 本文将针对 以 上指 标进 行 以 下研 究 

针对增 减 网 络 拓 扑 边 以 提 高 网 络 连通度 的 方 式 本文 在追 踪 网 络 
 ,

中 引 入了 架 中 继无人 机 建 立 了 种 新 的 网 络 拓 扑 更新方式 提 出 



了 种 基 于 D QN 算 法 的 中 继 无 人 机 部 署 与 轨 迹 规 划 的 方 案 将 部 署


中 继 无人机 的 过程 分 为 两个步骤 。 首先提 出 了 基于 D QN 的 部 署 算法




来 获取 中 继无人机 的 初 始位置 优化 了 追 踪 网 络 的 能量 消 耗和 共 识 收 
 ,

敛 时 延 其 次 在 追 踪 无 人 机 的 运 动 过 程 中 提 出 了 基 于 D QN 的 轨
。 ,

 ,

迹规划算法 有 效地 提 高 了 多 无人机跟 踪 网 络 的 共 识 成 功 概 率 降低


 ,

了 多 无 人 机 追 踪 网 络 的 中 断 概 率 仿 真 结 果 表 明 与 Q e am n g 算 法

。 , l i 

随机位置部署 算法相 比 , 本文提 出 的 算法具有更好 的 性能 



针对 增 减 网 络 拓 扑 权 重 以 提 高 网 络连通 度 的 方 式 本 文 提 出 了


种 基 于 MAD QN 算 法 的 多 无 人 机 轨 迹 和 功 率 分 配 联 合 优 化 方 案 。 

于 联合优 化 问 题 的 组合 性 和 非 凸 性 , 同 时 考 虑 到 每 架 无人机 的 效 用 是


根据 网 络环境 和 其它 无 人机 的 行为 来 确 定 的 可 以 将 该 问 题 建模 为


个 随 机博弈 问 题 针对 离 散 动 作 空 间 和 大状态 空 间 导 致 的 计 算 复 杂 度
。 

高的问题 提出 了 ,  M A D QN 算 法来求 解 该 问 题 的 最 优策 略 仿 真结 果

 。

表明 , 本文提 出 的 算法与 其它 算法相 比 , 具有 明 显 的 优 势 , 有 效地减




少 了 共 识 收敛 时延和 网 络 的 能量消 耗 

针对 改变 网 络 连通度 可 以 减少 共 识 收敛 时延 的 具 体 原 因 本 文进

 ,

步从 图论 的角 度 解释 了 网 络共识 问 题 分 析 了 网 络连通度 并且


, , ,

详 细 给 出 了 前 两个 提 出 的 方 案之 所 以 能提升 和 改善共识 收敛 时延 的


具体原 因 , 同 时对 其分 别进行 了 相 应 的 仿 真 , 仿真结 果验证 了 分析 结


果 

综上所述 , 本文主要针对追踪场景 下 , 网 络 的共识 收敛时延 和 能




效这两 个 性 能指 标展开研 宄 , 从 网络连通度 的 角 度做 了 相 应 的分析 

并 分 别 提 出 了 两种 优 化 方 案 , 对 未来可研 究方 向 进 行 了 展 望 

关 键词 : 多 无人机追踪 网 络 共识 收敛 时 延 路径 规划 能效优化

深度强化学 习 算法


R E S E ARC H O N M U LT I U AV S N E T W ORK

  

B A S E D O N  C O N S E N S U S  S T RAT E G Y
 

AB S T RA C T

I n  r e c ent
 y e ar s , 
unm a n n e d  a e r i a l  v e h i c l e  ( UAV )  h a s  b e e n  w i d e l y  u s e d

i n  v a r i ou s  f
i e l d so f pe op l e 
s  l i fe  b e c a u s e  o f  i t ss m al l  s i z e , s
t r on
g  m o b i l ity

an d l ow c o st  .  C om p a r e d  w i th  s in
gle  UAV , 
te a m  U AV  s
y ste m h a s   si
gn i f i c an t

a dv a n t a o p e r at i v e  t a s k s  s u c h  a s  t r a c k i n g
g e s  i n  p e r fo r m i n g  c o ,  m o n i to ri n g 

i ns
p ec
t i on  a nd  au t o m at i cc h e m i c a l
p
l an t  . Am o n g  t h e m  a s  an  i m p o r t a nt



pp l i c ati on  i n  t h e  f i e l d  o f  U AV , 
mu l t i -

UAV s c o o p e r at i v e  tr a c k i n g

t ask ha s

at t r a c t e d  e xt e n s i v e  at t e n t i on 

In  th e  mu l ti

U AV s  tr a c k i n g  n e t w o rk ,  t h e  ac c u r at e  an d  t i me ly

i n fo r m a t i on  i n t er a c t i o n  b e t w e en  UAV s  i s  t h e  k ey  t o  a c c ur at e l y  t r a c k  t h e

tar
g et .  At  p r e s e n t ,  m o r e  a n d  m o r e  at t e n t i o n  h a s  b e e n  p a i d  t o  d i s t i b ut e d
r 

c o l l ab o r at i v e  e s t i m at i o n m e th o d s  .  Mu l ti


g e n t c on s e n s u s  s t r at e gy  i s  on e  o f
 

t h e  i m p o r t a n t  m e t h od s .  A n  e ff
ec ti v e  c o n s e n s u s  s t ra t e g y  c a n  c o m p l e t e  t h e

t r ac k i n g  t a s k  t h r ou g h  t h e  i n fo r m at i on  i n t e r a c ti on  w i t h  ad a c e n t  UAV s j


How ev e r  ,
i n  the  mu l t i -

UAV s  tr a c k i n g  n e tw o rk , b
e c au s e  t h e  U AV  o f t he

t r ac k i n g  n e t w o rk  i s  m o v i n g  a l l  t h e  t i m e ,  an d  th
e  c h a n n e l  e nv i r o nm e n t  i s

c om
pl ex
 a n d  c h an
ge a
b le , 
t h e  n e t wo rk  t o p o l o g y  w i l l  c h an g e  at  an y  t i m e 

an d  s om e  ex i s t i n g c o mmun i c at i o n  l i n k s  w i l l  b e  i n t e r r u
pte d f
r e qu e ntl y 

r e sul ti n
g  i n  t h e  d e c l i n e  o f c om mun i c ati on  q u a l i t y

, 
w h i c h  s e r i o u s l y  a f fe c t s

th e  a cc u r a c
y  a n d  c onv e r g e n c e  d e l ay  o f  th e  c omm o n  s t r at e g y  s o  t h at

 ,

a c c u r at e  t r a c k i n c ann o t  b e  r e a l i z e d
g 

I nt h e  t r a c k i n g  n etwo rk  th e  m a i n  fa ct o r  a f fe ct n g  t h e  c on s e n s u s


 i

c onv e r
g e n c e  d e l ay  i s  th e  c onn e c t i v i t y  o f  th e n e t w o rk  a n d  t h e  e n e r gy

 ,

e ffi c i e n c o f  UAV s  a r e  a l s o th e  m o s t  b a s i c e r fo r m a n c e  i n d e x  i n  th e


y p

p r o c e s s  o f  t r a c k i n g  a n d  c on s e n s u s  T h e r e fo r e  t h i s  p ap er  w i l l  s t u d y  t h e

 .

ab ov e  i n d e x e s  a s  fo l l o w s 


A i m i n g at  th e w ay  o f  i n c r e a s i n g o r  d e c r e a s n g  n e tw o r k  t o p o l o gy

 i

ed
g e s  t o  i m p r o v e  n e t w o r k  c o nn e c t i v i t y , 
w e  n t r o d u c e  a  r e l a y  UAV  i n t o  t h e
i 

tr ac k n g  n e tw o r k

,  e s t a b l i s h  a  n e w  n e t w o r k  t o p o l o gy  u p d a t e  m e th o d  a n d

 ,

pr o p o s eas c
h e m eo f  re l ay  UAV  d e p o y m e n t  a n d  t r aj e c t o r

y  p l a nn n g  b a s e


d i

o n  D Q N  a g o r i t hm l .  We  d i v i d e  th e p r o c e s s  o f d e p l o i n
 y g  r e l ay 


UAV i n t o  tw o

ste
ps
.  F i rst l
y , 
ad ep l o y m en t al
gor i t hm  b a s e d o n  D Q N  i s
 p r o p o s e d o o bta n
t 
 i

t h e n i i ti a l p o s i t i o no f

 re l ay

U AV , 
w h c h  o p t i m z e s  t h e  e n e rg y  c o n s u m
i i

ti on

a n d c o n s e n s u s  c o n v e r
g e n c e  d e a y  o f  r a c k n g  n e t wo r k  S e c o n d y  i n  t h e


t l i . l

pro
c e s so f  tr a c k n g  th e  m o v e m e nt  o f
i  UAV  a ,
tr a e ct o r
j y  p a nn n g  a g o r
i l l i t hm

b a s e do nD Q N i s
p r o p o s e d  w h c h e
ffe c t v e
y  m p r o v e s  th e  c o n s e n s u s

i 
 i l i

succ e s s
p ro b ab i l i t
y  o fm u l t i

U AV s  tr a c k n g  n e t w o r k  an d  r e d u c e s  t h e
i 

i n t e rr u p t o n  p r o b a b i i l i t
y o f m u l t i

UAV s  t r a c k i n g n e t w o rk . S i m u l at i o n

re su l t ss h o w t h at o u ra l
gor i t hm  h a s  b e t t e r  p e r fo r m a n c e  t h a n  Q -

l e am i n g

a or h m  an d r an d o m l o c at i o n d e m e n ta g o r hm
p oy
t t
g l l i
l i 

A i m n g  a t  t h e  w ay  o f
i i n c r e a s n g  o r  d e c r e a s i n g  th e  n e tw o r k  t o p o o g y


 l

w e g h ttoi  i m
p r o v e  t h e  n e t w o rk  c o nn e c t i v i t
y w ep r o p o s e a j o

i nt

o p t m z a t o n s c h e m eo f m u l ti
i i i 

UAV s  tr aj e c t o iy  a n d
 p o w e ra l l o c at i o n  b a s e d

o n  MA D Q N  a l Du e oth en o n
g o ri hm c onv ex i t
yo f h e o i n t  o p t i m i z at i o n


t .  t t 

 j

y  o f  e a c h  UAV  i s  d e e r m n e d
t t h e u t
p r o b e m an d c o n s i d e r i n g  h a 

l t i l i t t i

a c c o rd i n
g ot h en e w o r k  e n v
t t i r o nm en tan d th e b e h av i o ro f o th e r  U AV s , 
we

c a nm o d e lth e
 p r o b l e m  a s  a r an
d om
 g
am e
 pro
b eml .  A i m i n gatth epr o b e m

 l

o f h i h  c o m u t at i o n a l  c o m l e x i t
g
p p y  c a u s e d  b y  c o n t i n u o u s  a c t o n  s p a c e  an d

 i

ar
g e  s t a t e  s p a c e  M AD Q N a g o r t hm i s  p r o p o s e d  t o  s o l v e  t h e o p t i m a l
l l i

s trat e
gy  o f  h e  p r o b l e m S i mu a i o n  r e s u l t s  s h o w  h at  o u r  a l g o r i t h m  h a s
t l t t . 

o b v i o u s  a d v a n t a g e s  o v e r  o th e r  a l

or i t h m s  a n d e ffe c t v e y  r e du c e s  t h e


 i l

c o n s e n s u s c o n v e rg en c e d e l a d  n e tw o r k  e n e r
y  an gy  c o n s u m p t i o n 

I n v e w o f th e s e c i f c re a s on sw h
y c h an g i n g th e  n e tw o r k c o nn e c t i v
 i
p  i 

 i t


c a n  r e d u c e  th e  c on s e n s u s  c o n v e r  d e ay  w e  e x p l a i n  t h e  n e tw o rk


gen c e

c on s en s us
 p r o b l e m  f r o m  t h e  p e r s p e c t i v e  o f  g r ap h  t h e o r y  a n a y z e  t h e

 ,

n e t w o r k  c o n n e c t i v i ty  a n d  g i v e  t h e  s p e c fi c  r e a s o n s  w h y  t h e  f

i i r s ttwo

p r o p o s e d  s c h e m e s  c an  i m p r o v e h e  c o n s e n s u s  c o n v e r g e n c e  d e ay  i n  d e t a i l
t l 

A t  th e  s a m e  ti m e  t h e y  a r e  s i m u l a t e d r e s e c t v e l y  a n d t h e  s i m u l at i o n

p 
 i

re su v e r i f y  o u r  an a l
y sis
l t s 


To  s um  u p , 
t h i s  p ap e r  m a i n l y  s t u d i e s  th e  t w o  p e r fo r m an c e  i n d i c at o r s

o f  n e t w o rk  c o n s e n s u s  c o n v e rg e n c e d e l ay  a n d  e n e rg y  e f fi c i enc
y  i n  th e

tr ac k i n
g  s c e n ar i o , 
m a k e s  t h e  c o rr e s p ond i n g  a n a l y s i s  fr om  t h e  p e r s p e c t i v e

o f  n e t wo rk  c onn e c ti v i t y  a n d  u t s  fo r w a r d  t wo  o t i m i zat i on  s c h e m e s


p ,p

re s
p e ct i v e l y .  Th e f
i x t ure  r e s e a r c h  d i r e c t i on s  ar e
 p r o sp e ct e d 

KE Y  W O RD S :  M u l ti -

UAV s  tr a c k i n g  n e t wo rk  C on s e n s u s  c onv e rg e n c e


d e l ay , 
P a t h  p a nn n g
l i
, 
E n e rg y  e f f i c i en c
y  o p ti m i zat i on , 
D e ep 
r e i n fo r c e m e nt

l e arn i n g  a l g o r i t h m


目 

第 章 绪论

 

1 . 1 研 究 背景及 意 义  

1 . 1 .
多 无 人机 集 群追 踪 网 络 概 述
〗  

1 . 1 2 基 于 共识 策 略 的 分布 式 协 同 估计 在追 踪 网 络 中 的 研 究
. . . . . . . . . 

1 .
1 .
深度 强化 学 习
3  

1 . 1 . 4 研宄意义  

1 . 2 国 内 外研 究现 状  

1 . 3 论 文主 要 内 容 及创 新 点  

1 . 4 论文结构 安排  

第 二 章 基 于 D QN 算 法 的 中 继 无 人 机 部 署 与 轨 迹 规 划 方 案  

2 .
系 统模 型
1  

2 部 署模型. 1 . 1  

2 丄2 信 道模 型  1 

2 . 1 . 3 共识 能耗模型-

 1 1

2 . 1 .
共识概率模型
4 屮 断 -

 1 

2 2 .
问 题构建   1 

2 . 2 共 识 收敛 时 延 和 能耗 的 折 中
. 1  1 

2 . 2 2 追 踪 网 络 中 的 共识和 中 断概率

 1 

2 . 3 基 于 D QN 的 中 继 无 人 机 初 始 化 部 署 算 法  1 

2 3 . . 1 算法
D QN   1 

2 3 2
. .

算法模型定 义  1 

2 3 . . 3 算 法 流程 描 述  1 

2 3 4
. .
算 法具 体训 练流程  20

2 3 . . 5 算 法 具 体 实 现流程  22

2 4 .
基于 D QN 的 中 继无 人机 轨 迹 规 划 算法  23

2 4 . . 1 算 法 模 型 定 义 及流程  23

2 4 2
. .
算 法 具 体 实 现 流程  25

2 . 5 仿 真 结果 与 分析  25

2 5 . . 1 仿 真场景  26

2 5 2
. .
仿 真 结 果及 分析  26

2 本 章小 结
. 6  2 

第 三 章 基 于 MAD Q N 算 法 的 多 无 人 机 轨 迹 和 功 率 分 配 联 合 优 化 方 案


 29

3 . 1 系 统模型  29


3 . 1 . 1 部署 模型  29

3 .
1 . 2 多 无 人机追 踪模 型  3 0

3 . 1 . 3 信道模型  3 

3 丄4 离 散共 识 算 法 模型  32

3 . 1 . 5 能 耗模 型  3 3

3 . 2 问题构建  3 3

3 . 3 基于 MAD Q N 算法 的 多 无 人 机 轨 迹及功 率 联合优 化 算 法 . . . . . . . 34



3 . 3 . 1
博 弈 论基 础  3 5

3 . 3 . 2 基 于 MA D Q N 算 法 的 联 合 优 化 博 弈 问 题 及 模 型 定 义  3 5

3 . 3 . 3 算 法 流程 描 述  3 7

3 . 3 . 4 算 法具 体训 练流程  40

3 .
4 仿 真 结果 与 分析  4 

3 . 4 . 1 仿真场景  42

3 . 4 2 .
仿 真结 果及 分析  42

3 . 5 本章小结 …  44

第 四 章 多 无 人机 网 络 中 共 识 收 敛 时 延 分 析  45

4 . 1 共 识 收 敛 时 延 的 影 响 因 素 分析  45

4 .
1 图 论 基础

1  45

4 . 1 . 2 网 络 中 的 共识 问题  46

4 . 1 .
共 识 算 法 的 收 敛性 分析及性 能 仿 真
3  47

4 2 .
改变 网 络连通度 的 方 案 分析  50

4 2 . . 〗 增 减拓扑边 中 继 无人机 部 署 方 案  50

4 2 2
. .
增 减链路权 重 功 率 分配 方 案  5 

4 3 .
仿 真 结果及性 能评估  52

4 4 .
本章小结   53

第五 章 总 结与展望  5 5

5 研 究 内 容总 结
. 1  5 5

5 2 后续工作展望
.  56

参考 文献  59



第 一

章 绪论 

第 一

章 绪论

本 章 首 先 对 论 文 的 研 究 背 景进 行 了 介 绍 , 内 容 包括 多 无人机集 群追 踪 网 络 的


概述 、 基 于 共 识 策 略 的 分布 式 协 同 估 计在追 踪 网 络 中 的 研 究 及 研 宄 意 义 。 其次 

对 国 内 外 研 究现状进行 了 介绍 同 时 阐 述 了 本 论文 的 主 要研 宄 内 容及 相 应 的 创 新

 。

点 。
最后 说 明 了 论文 的 结构 安排 

1 . 1 研 究 背景 及 蚊

1 . 1 . 1 多 无 人 机 集 群 纖 网 络雛

近 年来 , 无 人机 由 于 其 通 用 性 、 灵 活 性 和 相 对 较低 的 运 行 成 本 , 在某些军事


或 民 用 领 域 受 到 广 泛 关注 根据 B H n 。 te l l i
g en c e 的报告 预计 ,
2 02 1 年将有超过 290 0

万 架 无 人 机 投 入 使 用 预计 到 ,
202 5 年 ,
无 人 机 必 将在 军 民 领域得 到 广 泛 应 用 W 

同时 , 在 未来 的 移动 通信 技 术 中 , 我 们 不 仅 将 在 地 面 部 署 更密 集 的 通 信 基 站 , 


且还将合 理利 用 三 维 空 间 部 署 空 中 通信基站 从而 缓解地面通信基 站 的 过载 问 题

 ,


2]


在下 个十 年里 无人 机 将 小 型 化 智 能 化 和 集群 化 在 G 及 以 上无人机


, 、 。 5

通信 的 最 新 进 展 和 未 来趋 势 报 告 中 提 到 了 将来 关 于 无 人 机 通 信 的 几 大 趋 势 其 中

 ,

基 于 多 无 人机 的 集群 网 络 [
3]
, 即 可 扩 展 的 多 无 人机 网 络 , 得 益 于 其 高流 动 性 和 快


速供应 的 特 点 己经成为 了 种 快 速 有 效 的 恢 复 和 扩展 通 信 的 可 行 解 决 方 案 


, ,

到 了 极大 的 重视 [
4]


目 前 , 随 着 科技 的 不 断 发展 和 进 步 , 无人 机 将被 应 用 在 很 多 场 景 , 如 搜索 救


援 、 野 火监测 、 目 标监控 、 目 标 追 踪 和 武装 打击 等 [
5 ]
。 在 最 具 未来感 的 场 景 中 

无人机应 该 能够通过 使用 新 的 网 络技术和 协议 , 自 主操作 、 相 互协调 以及 与 部署




的 基 础 设施 协 调 。 这 些 自 治 系 统 的 潜 在 应 用 领域 包 括 敏 感 区 域 的 监 控 、 追踪 、



物和 辅助 材料 的 交付 、 基 础 设 施检 查 和 娱 乐 等 。 其中 ,
无 人 机 的 很 多 任务 中 都 包

含了 标 追 踪 其 将成 为 无人 机 的 关 键 应 用 场 景 之 其主 要 任务 是 通 过 将 目 标


目 , ,

保持 在 其视 野 内 来 跟 踪 地 面 上 的 移 动 目 标 。 相 比 于 单 无人机 追 踪 ,
多 无人 机 协 同

完成追踪 任务受 到 了 广泛关注 , 可见 , 在无 人 机 蜂 群 进 行 运 动 多 目 标追 踪 的 研 究




中 基 于 多 无 人机 协 同 执 行 作 战 任 务 的 集群 化 追 踪 网 络 将 成 为 个重要 的 发展趋


6]
势 [






北 京 邮 电大 学 工 学 硕 士 学 位 论文 

1 . 1 . 2 基 于共 识策略 的 分布 式协 同 估 计在 追踪 网 络 中 的 研究

在 多 无人机协 同 追踪 网 络 中 , 分 布 式协 同 估 计 方 法 越 来 越 受 到 重 视 。
分布 式


协 同 估 计 是 分布 式信 号 处 理 的 个 分 支 即 分布 式 网 络 中 多 个 代 理 通 过 与 相 邻 代


理 的 信 息 交互完成对共 同 标参数 的 协 同 估计 与 传 统 的 集 中 式 估 计方 法 不 同

7]
目 。 

分 布 式 协 同 估 计 方法 不 需 要 融合 中 心 每个 传 感 器 节 点 只 需 要 与 满 足 通 信 条 件 的

 ,

相 邻 节 点 通信 即 可 [
8]


在 多 无 人 机 目 标 追 踪任 务 中 有 效 的 分 布 式 协 同 估 计 算 法 可 以 使 得 当 其 中


个无 人机节 点 发生故 障 时 , 通过 与 其他相 邻 节 点 的 信 息 交 互 , 追 踪任务 也 可 以 完




成 。 其中 , 在 分 布 式 协 同 估 计 算法 中 , 多 智 能 体共 识 策 略 就 是 解 决 分 布 式 协 同 估


计问题的 种 重要 方法 在涉及 多 智 能体系 统 的 应 用 中 多 个代理 需 要就某些感


。 ,

兴趣 的 量达成

致 。 这样 的 量可 能 与 单个 作 用 物 的 运动 有关 , 也 可 能 与 之无关 

因此 , 在链路失效和 创 建 ( 即 可变 网 络拓 扑 ) 下 , 解决具有 定 向 信 息流 的动态代




理网络的

般形 式 的 协 议 问 题是很重要 的 。 近 年来 , 越 来 越 多 的 学 者对 多 智 能 体

共识 策略及其应用 进行 了 研 究 [
9]


1 . 1 . 3 深度 强化 学 习

近 几 十 年来 , 机 器 学 习 在 无线 通 信 网 络 中 得 到 了 广 泛 的 关 注 , 强化 学 习 算 法


已 广 泛 应用 于 人工 智 能和 无 线 通信 领域 [
1 G]
, 且 已 经 被 证 明 具 有 解 决 无 人 机无 线 网

络 问 题 的 能力 [
1 1


其 中 深度 强化学 习 在 最近 的

些游戏任 务上表 现 出 优异 的 性 能 

提供了

个 很 有 前途 的 解 决方 案 [
1 2]
, 它 使 用 强大 的 深层 神 经 网 络 来指 导 决策 很

 ,

好地处理 了 复杂 的 状态空 间 和 时 变 的 环境 , 且在许多 学 习 任务 中 , 即 使 是 零域 知



识 也 能提供最先进 的 性 能 。 在无人机 网 络场景下 , 针 对无 人 机 的 离 散 动 作 空 间 以



及大状 态空 间 导 致 的 计算 复杂 度 高 的 问 题 深度 强化学 习 是 种 很 好 的 解 决 方案


3]
同 时 在 面对 些 组 合性 及 非 凸 性 问 题 其 依 旧 也 表现 出 了 良 好 的 性能
1 一






1 . 1 . 4 研 究窻 义

在 分 布 式 多 无人 机 集群 化 的 追踪 网 络 中 无 人 机 之 间 准 确 及 时 的 信 息 交 互 是

 ,

准确 追踪 标 的 关键 要 实 现这 标 个重要 的 前 提是无人机 之 间 能 够进 行



目 , 目 ,

良 好 的 通信 和 协作 。 在 复 杂 的 战场 环 境 中 信 道 环 境 通 信 链 路 也 是 复 杂 多 变 的 , 、 

随 着 无 人 机机 群 数 量 的 増 多 , 信 息 共识 的 路径 也 变得复 杂 , 接收到 的信 息可能会




有 定 的时延 同 时 由 于 无 人 机 的 高速移动 和 通 信 范 围 受 限 的 问 题 多 无 人 机集


。 ,

群 的拓 扑 结构实时变化 , 在这些情况 下 , 无 人 机 之 间 的 连 通 性容 易 受 到 这 些 时 变


信 道参 数 的 影 响 , 导 致无 人 机 之 间 的 通 信 质 量 下 降 , 会严重影响 网 络性能 , 

无法




第 章 绪论




实 现精 准 的 共 识 和 目 标追踪 , 甚至 导致 目 标丢失 。 因此 , 集 群 化 的 无 人机 组 网 策


略 将面 临 挑 战 。
其次 , 由 于 无人机 的 电 池 电 量有 限 , 使得 多 无人机追踪 网 络 的 网

络 寿 命 大 打折 扣 , 所以 , 如 何 保证在 复 杂 战场 下 多 无人机 网 络 的 稳 定 性 , 延长 多

无疑是 项 既 有 理 论 意 义 又 有实 用 价 值 的 课 题
4]
无人 机追 踪 网 络 的 网 络寿 命


, 

1 . 2 国 内外研 究 现状

由 于 部署 的 灵 活 性和 高机动 性 ,
无 人机可 以 提 高蜂 窝 网 络 的 性 能 , 目 前有很


多 研 宄 集 中 在 多 无 人 机 网 络 来辅 助 蜂 窝 网 络 的 研 究 上 文献 作者主要研 究


5]



, ,

了 无人机协 同 地面蜂 窝 网 络 , 其 中 多 个无人机作 为


对地面用 户 之 间 的 中 继 。 

于信噪 比 , 提 出 了 两种 无人机选择策略 , 优化 了 整 个 系 统 的 中 断 概率 、 吞 吐量和



覆盖概率 。 文献 [
1 6]
中 , 作 者提 出 了

种 基于 最大化 用 户 平均 意 见得 分 、 无 人 机三

维 部 署 和 动 态运动 联合 问 题 提 出 了 种 三 步 法 来 实 现 多 无人 机 的 三 维 部 署 和 动


态运动 文献 作 者 提 出 利 用 深 度 强 化学 习 进 行 无人 机 控 制 并提 出 了 


7]




。 ,

基 于 深 度 强 化 学 习 的 覆 盖 与 连 接节 能 控制 方 法 有 效 提 高 了 多 无 人 机 的 覆 盖 率 但

 。

这些论文 大 都 是考虑利 用 多 无人机 网 络来提升蜂 窝 网 或地面用 户 的 某些性 能指



标 , 没有 论 文 专 门 研 究 移 动 多 无 人 机 网 络 的 特 性 

在 基 于 共 识 策略 的 网 络 研 究 上 , 分 布 式 多 无 人机 目 标 追 踪过程 中 ,
无人机之

间 的 通 信 时 延 会 增 加 共 识 算 法 的 估计 误 差 文献
8】
中 作 者为 了 减 轻这 问 题对


1 一


, ,

估计算法 的 影 响 , 提出 了

种 具 有 通信 时 延 信 息 补 偿 的 估 计 算 法 。
首先 , 利用 滤


波 器 对 各 无人 机 的 通 信 时 延 信 息 进 行 预 测 , 得到 补偿后 的 信 息 。 此外 , 利 用 共识

得到 了 通信 时 延 信 息 补 偿 的 估计 算法 文献 作者开


9]
算 法 结合 卡 尔 曼 滤 波 中


。 ,

发了 种 用 于 分散共识 优化 的 阶 算法 该 算法 比 当 前最 先进 的 算法更节 能 



, ,

效 的 解决 了 代理 的 电池 能量有 限 的 情 况 文献 作 者 研 究 了 具有切 换拓 扑 的


2 G]

中 ,

般线 性 多 智 能 体 系 统 的 保成 本 的 共 识 问 题 其 中 考 虑 了 联 合 连 接 和 连 接 切 换 拓


扑 。 文献 [
2 1

中 , 作证提 出 了

种 分层 结 构 来 解 决 多 智 能 体 系 统 的 共 识 问 题 。
新方

案将代理分 为 几个 组 ,
每 个 组包含

个 关 于 组 内 代 理 的 所 有状 态 的 值 , 我们 称之

为组信 息 。 对 于 每个单独 的 代理 , 它 不 仅 接 收来 自 其 组 内 邻 居 的 代 理 信 息 , 还接


收来 自 其 相 邻 组 的 组 信 息 证 明 了 该 方 案 在 离散 时 间 和 连 续 时 间 。 内 都 能达到 全局

共识 

在 共 识 策 略 的 收 敛性 问 题 上 , 在 多 变 的 复杂信道 中 , 时 变 连通 性 是 多 无 人 机


追 踪 网 络 面 临 的 主 要挑 战 之 文献 作 者 针 对 存 在 编 队 控 制 律精 度 低 


22 ]


, , 、

敛 时 间 长等 问 题 设计 了 个 基 于 拓 扑 优 化 的 分 散共 识 来控 制 多 径 衰 落 信 道 中 的


多 无 人机 系 统 提出了 种 队 形 结 构 重构 方 案 和 种 传输 功 率 分 配 算 法 以 保证







北京 邮 电大学工学硕士学位论文 


在有 限 的 收敛时 间 内 控制 精度 文献 作者提 出 了 种 贪婪扰动 启 发式 




23

[ ]
。 , ,

赖 于 系 统 的 全局 知 识 来确 定 与 代 数 无 人机连通性 相 关 的 特征 向 量 设 计 了 种基


于分散 向 量 的 连通性跟 踪算法 有 效提 高 了 追踪 网 络 的 连通 性 文献


24
F e dl er
[ 

i , 。

中 ,
作 者提 出 了 基于懒惰和 渴望共 识 的 算法来 实现群 体范 围 的 数据共享 ,
采用单


的 最佳 发 射机选择 在 收敛速度 和 有 效载荷 成 本之 间 达成 个有 益 的 折 衷 



, 。

献 作 者研 究 了 离散积 分 系 统 中 具有 非均 匀 非对 称 和 时 变 时 滞 的 多 智 能体


2 5
[ ]

中 , 、

系 统 的平均共识 问 题 提出 了 种 受 限 传输和 同 步算法 即 使在存 在不对称 




, , 、

均 匀 和 时 变 延迟 的 情 况 下 也 能 实现 良 好 的 平均 共 识性 来测 量和 减少 通 信 时 延 , ,


目 前这些研 究 多 集 中 于 从无人机 的 控制 层 面解决共识 收敛 问 题 没有论文 从 网 络



 ,

层 面来解决这些 问 题 

在共识策 略 的 能量消 耗 问 题上 文献 作者设计 了 种共识策略 该策




26]


, , ,

略 能很 好地适应 资 源 的 分布 特 点 , 有效平衡 了 系 统功 率不 平衡 , 保证 了 功 率 不平

衡任务分配 的 公平性 能够适应用 户 的 不确 定 性 文献 作 者针对无线传感




2 7]
, 。

中 ,

器 网 络 中 节 点功率受 限 的 问 题 , 基于 O l fa t i

S ab e r 提 出 的 分布 式共识 滤波 算 法和

种 随 机 图 的 站 点 渗流模 型 提出 了 种 新 的 能 量有 效 的 分 布 式 共 识 滤波 算法
一 一

, 

有 效地降低 了 节 点 能量消 耗 从而大大延长 了 无线传感器 网 络 的 寿命 文 献


2 8]

, 。 

作 者 将基 于共识 算法应 用 到 无人机无线 网 络 中 , 在全局 得分最大化 的情况 下 , 




立可 行 的 无冲 突 的 无人机并 行 能量传输和 信 息 采集任务调 度 方案 。
文献 [
29 ]

中 , 

者开发 了 种用 于分散 致性优化 的 阶算法 它 通过 图 中 的 个行走 系列




一 一 一 一 一

, (

节 点 传递 个标记 行走期 间 访 问 的 代理计 算其 私 有 函 数 的 梯 度 并 更新 令 牌


) 。 , 

仿真表 明 该算法 比 目 前 最 先进 的 算法 更节 能 。 目 前 没有 研 究讨 论基于 共识 策略 的



多 无人机 网 络 中 的 网 络 能耗 问 题 

在 用 强 化 学 习 解 决无人机 网 络 的 问 题上 文献 作 者提 出 了 种基于强




() 一

[ ]

, ,

化 学 习 和 深度 强化学 习 的无人机 中 继方案 。


在这两种 算法 的 帮 助 下 ,
无人机 的 能


量消 耗最 小化 ,
同 时获得更好的误码率 ( B ER ) 性能 。
文献 中 ,
作者研究 了 无


人机 网 络执行遥感任务 的场 景 。 在 其模 型 中 ,
无人机 分为 中 继无人机和 传 感 无人


机两类 。 考虑 到无人机之 间 的 通信可 能不可 行或不可靠 ,
无人机在 本地决定 是 否

需 要 参与 中 继或感知 作 者开发 了 种 分 布式机制 利 用 强化学 习 算法学 习 最 优




, ,

任务分配 文献 作 者 针对 蜂 窝 连接 的 无人机 网 络 提出 种 基于深度强




32]
中 了


。 , ,

化 学 习 的 干扰 感 知 路 径规划 方案 , 该方案实现 了 更好 的 无线延 迟和 传输速率 。





献 [
33 ]

中 , 为 了 支 持动 态用 户 分 组 并 为 网 络 设 计 带来更大 的 灵 活性 , 作者利用 深度


强化学 习 的方法 ,
联合 设 计 了 无 人机 的 轨迹和 功 率 分配 , 以 服务 于 静态 非 正 交 多

址 ( N O MA ) 用户 。 研宄 了 将 N O MA 技术集 成到 无人机 网 络 中 的 设计挑战 , 






第 章 绪论

 

时 也强调 了 些有待解决 的 研 究 问 题 文 献 中 作 者 通 过 联合 考 虑 通 信 覆 盖 率


3 4]
。 , 

公平性 能 耗 和 连接性 调用 了 种 深度强化学 习 D RL 算法 对无人机进 行




、 , ( ) ,

节 能控制 的 是找 到 种 控 制 策略 指 定 每个无人机在每个 时 隙 中 的 移 动方式


。 目 , 

因此 , 四 个参数 : 平均 覆盖分数 、 公 平 性指 数 平 均 能耗 和 能源 效率被 联 合优 化 、 



目 前 没有研 究讨 论基于 共识 策 略 的 多 无 人机 网 络及 多 无 人机 的 动 态 规划 问 题 

1 . 3 论 文 主 要 内 容 及创 新 点

本论 文 的 研 究 内 容及 研 究框 架 如 图 所示 

绪论

背 票 及 w 穷現 状 遲 研

  寺 


语究 内 容

^aai  issi 銳




| [ I 丨

、 i  

点 主 要 毯 新產  刽 新 点

J


1 L  :
 v ? y ? f ?


 .




炉 叫  提给了


氣 提 s 了 

粋当

网雜
 爲 P  白 子亲合

%M  w  l|f  普子  公 審|  分碰


 n

S 的 算 法  移 劫  M A D Q N  了 改变 网

? m s 7 3

j p通
人 D

0ON 茨 
m mm  2 5 a S?i
妄 
  ^  
占 部宝 择六 S
I V =r
i ?




釣 中 继  分 髮蔡 合 

给 鍾  元人 机   mjm 

m S  旗 緊!

 々j / 3 


 ̄  ̄
 ̄  ̄
  ̄  ̄   ̄
 ̄  ̄

I r 1  I 1

  I  



图 l

i 研 究 内 容及框 架 图

在 多 无人 机 的 追踪场 景 下 ,
无人机之 间 准确 、 及 时 的 信 息 交互 是 准 确 跟踪 

标 的 关键 , 其 中 分 布 式 协 同 估 计 方法 越来 越 受 到 人 们 的 重 视 ,
多 智 能体共识算法


是其 中 的 种 重要方法 本文主 要 研 究基于 共识 策 略 的 多 无人机组 网 通过加 入


, ,

中 继无人机 、 优 化 中 继无 人机 的 部 署 与 轨迹 、 优 化追踪 无 人机 的 功 率 分配 、 优化


追 踪无人机轨迹等 多 种 方案 通过 改变 整个追踪 网 络 的 网 络 连通 度 来对整个 网 络

 ,

进行优化 ,
从而 实 现在追踪场 景 下 对 目 标 的精确共识和 追踪 





北京 邮 电 大学工学 硕士学位论文 


) 本 文 以 增 减拓 扑边 的 方 式 改 变 网 络 连 通 度 的 主 要 贡 献 如 下 

提出 了 个新 的 网 络框架 将 中 继 无 人机作 为 个新 的 节 点 部 署 到


一 一

1 .

多 无 人 机 追 踪 网 络来 改 变 当 前 网 络 拓 扑 结 构 

提出 了 种基于 D QN 的 算 法 来 获 得 中 继 无 人 机 最 优 的 初 始 位置

2 . 

提出 了 种 当 追 踪 无 人 机 开 始 追踪 移 动 时 基 于 D QN 算法 的 中 继无


3 .

人 机 轨 迹 规划 方 案 

b) 本 文 以 增 减拓 扑 权 重 的 方 式 改变 网 络 连 通 度 的 主 要 贡 献 如 下 

提出 了 种基于 MAD Q N 算 法 的 多 无 人 机 轨 迹 和 功 率 分 配 联合 优 化


1 .

方案 

由 于联合优化 问 题 的 非 凸 性 提出 了 种 随机 博弈 的 建模方式 并用


2 .

M AD Q N 算 法求 解 该 问 题 的 最 优策 略 

最 后 本 文 以 图 论 的 角 度 分 析 了 网 络 共 识 及 网 络 连通 度 , 并 分 析 和 验证 了 以

上 改变 网 络 连通度方案 的 有 效 性 

1 . 4 论雄构 安排

本 文 针对 多 无 人 机 追 踪 场 景 下 的 网 络共 识 、 无人机能 效 问 题进行 了 研 究 , 

过对 共 识 收 敛 时 延 的 影 响 因 素 分 析 及 对 多 无 人 机 组 网 场 景 的 建 模 分 析 了 追 踪 场

 ,

景 下 无 人 机 系 统共 识 及 能 效 优 化 的 方 向 并 提 出 了 相 应 的 策 略 。 全文共分为五章 

结构 安排如 下 

第 章 绪论 本 章 首先对论 文 的 研 宄背 景进 行 了 介 绍 内 容 包 括 多 无人 机


: 。 ,

集 群 追踪 网 络 的 概 述 基 于 共 识 策 略 的 分布 式 协 同 估 计在 追 踪 网 络 中 的 研 宄 及 研
、 

宄意义 进 步 对 国 内 外 研 宄 现状进行 了 详细地介 绍 阐 述 了 本文 的主要研究


。 , 。

工 作 内 容及 相 应 的 创 新 点 。 最后 说 明 了 论文 的 结 构 安排 

第二章 : 基于 D QN 算 法 的 中 继无人机部 署 与 轨迹 规划 方 案 。
本 章 详细 介 绍

了 改善 多 无人机之 间 信 息 共 识 收敛 时延 以 及 多 无人机 能效 的第 种 策略方案 在




该方案 中 我们 提 出 了 种 通 过部 署 中 继 无 人 机来 改 善 多 无 人 机 追 踪 网 络 的 连 通


度 和共识 性 能 的 方法 。 我 们 将 部 署 中 继 无 人 机 的 过程 分 为 两 个 步 骤 。 首先 , 提出

了 基 于 D QN 的 部 署 算 法 来 获 取 中 继 无 人 机 的 初 始 位 置 , 优化 了 追踪 网 络 的 能量


消 耗和 共识 收敛时延 。
其 次 在追 踪 无 人 机 的 运 动 过程 中 我 们 提 出 了 基 于
, , D QN

的 中 继 无人 机 轨 迹 规 划 算 法 。 仿 真 结 果表 明 , 与 现有算法相 比 , 基于 D QN 的 算


法 具 有 更 好 的 性 能 同 时 验 证 了 我们 的 方 案 能 有 效 地 提 高 了 多 无 人 机 追 踪 网 络 的
, 

共识 成功 概率 , 降低 了 多 无人机跟踪 网 络 的 中 断概 率 




第 章 绪论




第三章 : 基于 M A D QN 算 法 的 多 无 人机 轨 迹 和 功 率 分 配 联合优 化 方 案 。



章 详细 介绍 了 改善 多 无人机之 间 信 息共 识 收敛时延 以 及 多 无人机 能效 的 第 二 种

策 略方 案 在 该方案 中 我们 提 出 了 种 联 合优 化 多 追 踪 无 人 机 轨 迹 及 每架 无人


。 ,

机 功 率 分 配 的 方法 结 合 多 代 理深 度 强 化 学 习 算 法 通过在 定 范 围 内 限制 追踪


, ,

无 人 机 的 轨 迹 并 且 学 习 最 优 的 功 率 分 配 方 案 来优 化 追 踪 网 络 的 能 量 消 耗 和 共 识

收敛 时 延 。
仿 真 结 果验 证 了 我 们 的 方 案 

第四章 :
多 无 人机 网 络 中 共 识 收敛 速 度 分 析 , 本 章 详细 介 绍 了 影 响 多 无人机


之 间 信 息 共识 收敛 时 延 的 影 响 因 素 并且详细 分析 了 前 两章 提 出 的 方案之所 以 能
, 

提 升 和 改 善 共 识 收敛 时 延 的 具 体 原 因 最 后 进 行 了 仿 真 验 证 了 我 们 相 应 的 分 析
。 , 

第五章 : 总 结 与 展望 。
本 章 对全 文 所研 宄 的 全部 工 作 进 行 了 总 结 , 同 时对未

来 的 研 宄 工 作进行 了 展 望 可 以 为后 续进 步 的 研 究提供 建议和 参考








北 京 邮 电 大学工学 硕 士学位论文
 





第二 章 基于 D QN 算 法 的 中 继 无 人 机 部 署 与 轨 迹 规划 方 案 

第 二章 基于 DQN 算法 的 中 继 无 人 机 部 署 与 轨迹规划 方 案

在 多 无 人 机 的 追踪场 景 中 , 由 于无人机 的 高速移动 和 通信 范 围 受 限 的 问 题 



无人 机之 间 的 通信 链路容 易 被频繁 打 断 造 成 多 无人机协 作追踪 时对 多 个移 动 ,




标无法精 确 共识 , 同时 , 随 着 无人 机机群 数量 的 增 多 , 信 息 共识 的 路径也变得 复



杂 接 收到 的 信 息可 能会有 定的时延




本 章 介 绍 了 改善 多 无人 机之 间 信 息 共 识 收敛 时 延 以 及 多 无 人 机能 效 的 第


种 策 略方案 在 该 方案 中 我们 提 出 了 种 基于 D QN 算法通过部 署 中 继无人机




。 ,

来 改 善 多 无 人 机追 踪 网 络 的 连接度 和 共 识 性 能 的 方 法 首 先 针 对 多 无 人 机 追 踪 场

 。

景 , 我 们 建立 了 系 统模 型 , 其 中 包括部署模型 、 信道模 型 、 共识 能 耗模 型 以 及 共

 -

识 中 断概率模型 其次 引 入 架 中 继无人机 利用 D QN 算法找 到 满 足 最优共




。 , ,

识 时 延 和 能耗 的 中 继无 人 机 的 轨迹部署 方案 主要 分为两个个阶段 阶段 


。 , :

初 始化追踪无人机 的 分 布 时 , 找到 最优 中 继 无人机 的 起始 位置 。 阶段二 : 当 追踪




无人机 开始追踪任 务 时 基 于 追踪 无 人机 的 动 态轨迹进 行相 应 的 中 继 无 人 机轨迹

 ,

部署 。
最后 通过仿 真对我 们 的 方 案进 行 了 验证 

2 . 1 系 统模 型

2 1 . . 1 部署 模型

Re i a yU AV


T r a c k i n gU AV


贫 f

之


十 






X 丄 T



j 

 \ 4
 i Y
 、  ?
 
_ 、




\ 

K
^ 
 








VV 

T a c k n gt a g e t  , 

r r 、

 1  

C o n t r o c e n

t e 

图 2 -


部署场 景 图

在追踪场景 中 我们考虑在 个地理 区 域 内 部署 由 W 架追 踪无人机 的 集合




# V 和 架 中 继无 人机组 成 的 多 无人机追踪 系 统 在该系统中 追踪无




=

 1 . . .  。 ,

[ }





北 京 邮 电 大 学工学 硕 士 学 位论 文


人 机和 中 继 无 人机 分 别 以 速度 在同 高度 飞行 每架追踪 无人机负 责追踪相




V ;; 。

应 的 追踪 目 标 ,
并将追 踪 信 息 传输 给 相 邻 的 无人机 , 以完 成信 息共识 。
本文假设


追踪 目 标是 随机移动 的 , 所 以 追踪 无人机 的 轨迹 也 是 随 机 的 。
中 继无人机则 根据


追 踪无 人 机 的地理位 置 和 当 前 网 络 的 性 能 需 求 飞 到 相 应 的 位置 , 以 适应和 改 变 当

前 多 无 人 机追踪 网 络 的 网 络 传 输 性 能 其主要 影 响 网 络连通度 以 及 信 息 共 识 的 方



 ,

式 如图 所示 是 我们 的 场 景 部署 图 我们 假设有 个 中 央控制 中 心 可 以 收



。 1 , ,

集 所有追踪 无 人机 的 位置状 态 信 息 并 能 够 发送命 令 要求 中 继 无人 机可 以 移动 到



 ,

合适 的位置 

, -



 /\


一 ?

产 V




一 一


图 2 -

2 无人机 网 络拓扑 图

该 系 统 中 所有 无 人 机之 间 的 网 络 拓 扑 可 以 表示 为 个有 向 图 G




其 中 j= 表 示 为 该 图 的 邻 接矩 阵 ,
并 且 邻 接元素满 足 a 2 0 


叫 表示 由 V 架追踪无人机和 架中继 无人机组成 的 集合 E 为每






2 T i? ,

对节 点 之 间 边 的 集合 ,
节 点 的 邻 居节点集合/ , 可 以 表示为


其中 



v ,
v e 


J)



v ’

^  2
= -


( 



0 ,  o th e rs

2 . 1 . 2 信道 模型

本文 假 设 网 络 的 传输带 宽为 6 Hz , 时间间隔 T 被划 分为 T V

个时隙 其 中 每个

 。

时 隙 的长度是 同 时 本文还 假设 无人机之 间 的 通信 信 道为 1 05 




道 , 考虑 自 由 空 间损耗模型 , 因 此本 文 定 义 信 道 系 数 为 

A M =  ̄  ̄

n (2 -

2)
-  ̄  ̄

r n
… …



 r1
小 W W十乂




L J
a J

其中 《 表示 时 隙 ,



表示在 名 =
l m 时 的信道系数 , 其中 名 为 固 定 常数 

2 ' '

d [
? ]=
y
x [
ri


?]  +> [
? |

乃 [
?] 表示在时 隙 3 下 无人机之 间 的 距离 。




j\ ] ^ ]


_

1 



第二章 基于 D QN 算法 的 中 继无人机部署 与 轨迹规划 方案 

虑使用 同 信 道 资 源 的 多 个无 人 机之 间 存 在 干扰 因 此通过信道建模可 以 计算


出 每 条 链 路 的 相 应 的 仰V 可 以 表 示 为 i? 

1 2 ,
… …

N t (
2 -




匕物々 [ 啦 W 々



其中 凡 为无 人机 的 传输功率 / ,
& 是对无人机 产 生干涉 的 无 人 机 /
_
/ 的 传 输功 率 

为高斯方差 表示 网 络 的 传输带 宽 表示接 收无人机 处 的 加




 5#。 ,
其中 5 , iV



性高斯 白 噪声 ( AW G N ) 的 功 率 谱 密 度 当 两 架 追踪 无 人 机 之 间 。 S IN R 满足 % 
> 


时 , 表 示该无人机 和 无人机 ;
_ /
之 间 可 以 进 行通信 ,
以 此类推 , 可在追踪无人机


之 间 建立 网 络拓 扑 其 中 & 表示满足可通信 范 围 , 内 S I NR 的 最小值 为 固 定常数 , 

在每个时 隙 中 ,
无 人机 的 有 效平 均 数据 速 率 可 以 表 示 为
f 

丄 V

f 
TA
n=l
[



\  上 N
t 
n= 


1 〇g
z + [

D  (
2 4)


_

基于 获 得 的 平均速率 , 我们 可 以 计算得到无人机 和 无 人机 f
_ / 之 间 的 通信 时


延 


= =
T _


- ( 



B l og

l + r 



[ }

其中 £ 表示每 架 无 人 机每 次共 识 需 要传 输 的 数据 包 的 大 小 我们 假 设其为 




固定 的常数 

2 . 1 . 3 共 识 能 耗模型

 -

无人 机之 间 所有 追踪信 息 交 互所 需 的 共识 时 间 和 飞 行过程 中 的 能 量 消 耗在


追踪 场 景 中 至 关 重 要 。 在这种 情 况 下 , 多 无 人 机 通 信 网 络 中 必 须 考 虑共 识 能 耗模


型 。 共 识 能耗模型可 以 定义为 

F^ T^
^7 2 6)-

( 

i )

其中 ¥ 和 G 为模 型 系 数且满足 A 
+ < =
2
1 。 7

和 & 分 别 为 离 散 算 法共 识 模 型 和 能


耗模型 。
Y 表示用 于调 整能耗 比 例 的 能耗 系 数 。
p 时 防止 分母为零 的 系 数 

2 . 1 . 3 . 1 离散共 识算法 模型

在 分 布 式 多 无人机追踪 网 络 中 , 网 络 连 通度 和 通信 时 延 会 引 入 误差 , 其将 会


严重影 响 共识 结 果 的 收敛时延及 时 间 。 当 无人机 和 无人机 f
_ / 之 间 出 现通信 时 延

& 时 , 离散动 态 时 间 共 识 算法 的 表达式 如 下 所示 

1 1



北 京 邮 电 大 学工 学硕 士 学 位论 文 

元 (
, + 1
)

 x

 (

) 



en



[ 6? ;


 5  )]  (
2 7)


其中 i

被 叫 做 无 人 机 的 值 本 文 将 其 定 义 为 追 踪 无 人 机 的 位 置信 息
f , f 。
% 为无人


机 和 无 人 机 y 之 间 的 共 识 权重 系 数
f , 当 ( ^ 2
;。?
时 ( 后 文 我们 会 专 门 定 义 U 

所 有无 人 机 的 值将 逐渐达 成共 识 

li m i , (



 l im

^^
co n


^ (

)  (
2 8 -



表 示 多 无人 机 追 踪 网 络 的 共 识 收敛 时 延 如 果 无人 机 之 间 存在 通 信 时 延 。 

则 无人 机 将会 对 来 自 其 他 无 人 机 的 延 迟 信 息 进 行 融 合 , 这 将 给无 人机 的 值 , 也就


是 无 人 机 的 位置 信 息 带 来 误 差 。 除 此 之外 。 如 果 时 间 延迟足够 大 , 上 述 方 程更有


可 能 不 收敛 。 通过 [
3 5] 的 分析和证 明 , 我们 可 以 得到 多 无人机 网 络 中 容许 时延 的

最大上界 , 以 满 足 方程 收 敛 的 条 件 


点 (
2 9 '



其中 ?6 )
表 示 多 无人 机 网 络 图 G 最大 的 出 度 个 数 , 可 以 被计算 

d娜 {


 % 〗

2 -

1 0


除此之 外 从 的 分析和 证 明 可 知 不 同 的 网 络 拓 扑 结 构 会 导 致共 识 算 法 的
35]


, 

收敛时延也不 同 。 其 收敛 时 延 可 以 表 示 为 ; 被称 作 拉 普 拉 斯 矩 阵 的 第 二 小


特征值 , 也 称为代 数 连 通 度 。
其中 i 是图 (? 的 拉 普 拉 斯矩 阵 。 因此 , 

多 无 人 机追
踪 网 络 的 共识 收敛 时延 可 以 被 定 义为 [
36 ]







+ " l

^ ^ 2^ A
K )



) %

l N

^ c L

Ar
l c k


( 1 ( 1
2 2
( ) { )

其 中 c# c

为正常数 ,
&e (
0 ,


, 《:
2

〇 ,
〇〇



加 入 中 继 无 人机 后 ,
因 为存在前后场景 的变化 , 我们 需 要计 算 引 入 这种 差 异


化而带来 的 系 统化 的 提升 , 因此 , 离 散共 识 算 法 模 型 可 以 表 示为 有 中 继 无 人 机 和


无 中 继 无人机 的 共识 算法 的 收敛 时 延差 

C 


? = 1


— (


7咖
 W )  (
2 -
1 2)

其中 是 中 继无人 机 加 入 追 踪 网 络 后 的 共 识 收敛 时 间 

1 


第二章 基 于 D QN 算 法 的 中 继 无 人 机 部 署 与 轨 迹 规 划 方 案 


2 1 3 2
. . .
能 耗 模型

在 多 无人机追踪 网 络 中 , 能量消 耗 主 要 包含两个 方面 :


无 人 机之 间 的 通 信 能


耗 和 维 持 无 人机 机载 飞 行 所 需 的 推进 能 耗 。
然而 , 无 人 机 网 络 中 的 通 信 能 耗 远远

低于推进能耗 因 此本 文 将 不考 虑 这 部分 本 文 假 设 所有无 人机 以 恒 定 的 高度


, 。

飞行 具有恒 定 的 速度 V 水平 飞 行 期 间 推进消 耗 的 功 率 由 关 系 式 给出
3 7]

办 , , 


+ f 


i v =
 C V 2 -

1 3
( ) n,
( 

v 

其 中 ^ 是用 来平衡 由 表 面摩擦 引 起 的 寄生 阻力 所 需 的 功 率 是用 来平衡





空气 阻力 所需 的功率 。
^ 和 ^ 与 无人 机 和 环 境 的 许 多 参 数 有 关
^ , 计算如 下 


^ \ pCS  t

2 -

1 4)

A  2 Wf



^ rj S
{ )p 

其中 ,
p 和 C 分别 表示 空 气密度和零升 力 阻力 系 数 。
& 是无 人 机 的 参 考 区 域 。 

是奥萨 瓦尔 德效率 。 7
7, 和 F 分 别 是 无 人机 的 机 翼 展 弦 比 和 重 量 。 因此 , 中 继无人


机消 耗 的 推进 能量可 以 由 以 下 公 式得 出 

^ 
v ,
n =
 P v =
 dr (
2 -

1 6



( ) t  ( )

| 

其中 表示 中 继无人 机在第 n 个 时 隙 中 的 飞 行距离 , 表 示 中 继 无 人 机在




第 》 个 时 隙 中 的 飞 行速度 。
因此 , 我 们 的 能 耗 模 型 可 以 被表 示 为 



ER
fE v n 2 7)
- -


day
r { ,

( 

?=1

备注 : 由 于 所有 追 踪 无人 机 的 追 踪 轨 迹不 在 我们 的 优 化 目 标范 围 内 , 因 此这

里 只 考 虑 中 继 无人 机 的 飞 行 中 推 进 能 耗 

2 . 1 . 4 中 断 共 识概 率 模型


2 . 1 . 4 1 .
中 断概率 麵

在 每个 时 隙 的 追 踪 过 程 中 , 由 于 无 人 机 飞 行轨 迹 的 不 确 定 性 , 无人 机 之 间 的

某些通信 链路有可 能 因 链 路 S INR 质 量差而 中 断 。


从 网 络拓 扑 图 的 角 度 来看 , 

个无 人 机 无法 与 任 何 其 它 无 人 机通 信 时 会出现 个非连接 的 图 因此 中断


一 一

, 。 ,

概率模 型 可 以 被 定 义 如 下 

1 



北 京 邮 电 大 学工 学硕 士 学 位论 文 


及 H 2 8
= -


( 


_

, 、  f l  ex is t  d i s c o n n e c te d grap h

WW


=<

2 -

1 9)

。 —

其中 表示 系 统在 第 《 个 时 隙 中 是否 处于 中 断状态 。
判 断多 无 人机 中 断 的

条 件 是 在 当 前 网 络 拓 扑 下 是 否 存 在连接 图 。
如 果存在 , 则 系 统 处 于 连接 状 态 

Au ta
ge
的 值为 〇 。
如 果 不存在 , 则 系 统 处 于 中 断 状态 ,
A ut a
ge
的 值为 1 

2 . 1 . 4 2

共 识 概率模型

从 网 络拓 扑 的 角 度 多 无人机 网 络 图 中 存 在 棵 生 成树 且 通 信 链 路满 足 时


, ,

延 限制 的 需求 在 中 已 经被证 明 是 网 络 系 统 达 到 共识 收 敛 的 充要条件 换句话





3 8]
, 。

说 , 图 中 必 须存在

个全局 可达 点 。 因此 , 共 识 概率模 型 可 以 定 义 如 下 

^cons W
 2 2 0)


en s us  c on se ns us  ( ( 


f l  c o n s e ns us  c on ve rg es



C—


2 2 _


( 


〇  e ls e

 |

其中 , 表 示 系 统 在 第 《 个 时 隙 中 是 否 处 于 共 识 状态 判 断 多 无 人 机 系 统 是

 。

否 共识 的 条件 取决于 在 当 前 网 络 拓 扑 和 时 延 下 网 络 能否 收敛 。 如果收敛 , 系 统则

处于共识状态 。 的值为 1 。
如 果 不存在 , 则 系 统 处 于 非共 识 状 态 

的 值为 0 

2 2 .
问 睡构建

本节 中 , 对 多 无人机 追 踪 网 络 中 的 共 识 、 能耗折 中 优 化 问 题 ,
以及追踪过程


中 的 网 络共识 、 中 断 概 率 的 优 化 问 题 分 别 做 了 详细 的 理 论 分 析 

2 2 1
. .
共 识 收 敛时延和 麟 的 折 中

在 多 无 人 机 追 踪 网 络 中 不 同 的 网 络 连通 度 会 严重 影 响 共 识 算 法 的 收 敛 时 延

,

( 具体在第 四 章分析 ) , 网 络 连通 度 越 大 , 共 识 算 法 的 收敛 速 度 越 快 。 这种 代 数


连通 度 可 以 通 过 改 变 边 的 权 重 来控 制 , 也 可 以 通 过 增 加 和 删 除 边 来控 制 。 然而 

增 加 和 删 除边 以 获得期望 的代数连通度 是 个 难问题 因此 在我们 的 方案




NP 。 ,

中 通过 加 入 个 新 的 中 继无人机 可 以 有 效 地 改变 网 络 的 拓 扑 结 构 实现增 加


, , ,

和删 除边 的 目 的 

1 


第二 章 基于 D QN 算 法 的 中 继 无人机部 署 与 轨迹 规划 方 案 


除此之外 , 在 无 人 机 的 飞 行 过程 中 , 中 继无人机 的 飞 行轨迹也 会影 响 整个 无



人机 网 络 的 能量消 耗 ( 因 不 考虑 追 踪 无 人 机 的 轨 迹优 化 问 题 ,
所 以 只 考虑 中 继 无

人机 的 能耗 ) , 能耗 问 题依 旧 是 多 无人机系 统 中 需 要研 究 的 重要 问 题 

首先 ,
本 文 假 设 所 有 追 踪 无 人 机在 初 始 时 刻 都 是 静 态 的 。
在这种情况下 ,



们希 望找 到 中 继无 人机 个最 优 的 初 始 位置部 署 使 得 我们 的 追 踪 网 络 共 识 算法


的 收 敛 时 延和 中 继 无人机 的 能耗都 能较低 。


因此 , 我 们 将该 问 题可 以 表述 为 

m ax F  2 22

n ( 

s - tc l r d > 0^



j 

c2 :  t < d 
r 

其中 表示无 人机之 间 的 最 小 距离 阚 值 。 cl 定义 了 最 小 的距离参数 , 以 防止



每 架 追踪 无 人 机 之 间 发 生 碰撞 。
[ 表 示 中 继无 人 机 在 每 个 时 隙 中 的 移 动 时 间 , 

此 , c2 定义 了 中 继无人机 的 移动 时 间 范 围 

2 2 2
. .
織 网 络 中 的 共识 和 中 断概率

当 追 踪 无 人机 开 始 移 动 时 , 追 踪 网 络 的 拓 扑 结 构 是可变 的 , 这将 导 致 现 有 的


些 通 信 链 路发 生 频 繁 的 中 断 。
因此 , 无人 机 网 络 的 连 通 度 很 容 易 受 到 影 响 。 

会影 响 共识 算法 的 收敛 时 延 甚 至 导 致 完 全 不 收敛 所 以 我们 需 要找 到 条中继


, 。

无人机 的 轨 迹 来 解 决 这 些 问 题 。 因此 , 该 问 题可 以 被表述为 

^O u ta  (
2 23  ̄





ge

眶 户應 娜  2 24 _

( 

tcl d D^
s - i

^ 

c2 : t < d
r 

2 3 .
基于 D QN 的 中 继 无 人机 初 始 化 部 署 算 法

在本节 中 , 当 我们 随 机 初 始 化 所 有 追 踪 无 人 机 的 初 始 分 布 后 , 我们 将利 用

D QN 算法 , 来找 到 中 继 无 人 机 的 初 始 部 署 , 以 优化 无 人 机 网 络 在 初 始 阶 段 的 共


识 收敛 时延和 能耗 的折 中 问 题 

1 



北 京 邮 电大学工 学硕士学 位论文 

2 3 1  D QN
. .
 算法

首先 学 习 是 强化学 习 算法 中 的 种 基 于 值 的 算法 即构造

个 表来



Q ,

存储 Q 值 , 然 后 选 择 能 够 获 得最 大 回 报 的 动 作 。 与 Q 学习 相 比 , D QN 的 主 要 思

想 是 用 深 度 神 经 网 络 模 型 来代 替 Q 表来实现 智 能体 的 状态估计 

此外 , 为 了 准 确 有 效地训 练和 更 新 Q 网络 , D QN 算 法主 要表 现 出 两 个重 要


的区别 : 经验重放和 Q -

tar
g et 网络 。 D QN 采 用 经验重 放 机 制 来 维 护 队 列 , 保留历

史 经验 在每 步中 D QN 都使用 个来 自 经 验 重 放 缓 冲 区 的 小 批 量数 据 来 存


一 一

。 ,

储来 自 代 理 和 环 境 之 间 交 互 的 传输 样 本 。 由 于 经验重放记 忆 独立 于 神 经 网 络 , 

保证 了 训 练数据 的 相 对独立性 并 能避免发散 除此之外 也是 种破




Q tar
g et

, 。 ,

坏 相 关性 的 机 制 。 使用 Q

tar
g et 将使 D QN 中 的 两个 网 络 具有相 同 的 结构 , 但参


数不 同 。
Q 目 标 的 更新将落 后 于评 估 网 络 。 对评 估 网 络 进 行 多 次 更 新 , 将评估 网

络 的 参数 分配给 标 网络 实现 标 网 络 的 更新 这样 在 定程度上 降低 了 当


目 , 目 。 ,

前 Q 值与 目 标 Q 值之 间 的相关性 , 提高 了 算法 的 稳 定 性 

2 3 2
. .
算法模雖义

在我们 的 D QN 模型 中 , D QN 用 于 控 制 中 继 无 人机 的 飞 行 。 中 继 无 人机将 作



个智 能体 , 可 以 定 期 收集 追 踪 无 人 机 网 络 的 状态 , 并通过与 多 无人机 网 络 的

环 境交 互 , 使用 D QN 算法来确 定 其 最佳 行动 策略 , 即 飞 行轨 迹 , 以 在 决策步 骤


中 来最大化观察 到 的 回 报 r 在每个步骤 中 中 继 无 人 机 从状 态 空 间 中 观 察


。 f ,

个状态 ^ 并基于 网 络选择 个动 作 4 因此 我们 可 以 定义 中 继无人机 的 状





Q 。 ,

态 、 行动 和 奖励 


) 状 态表 示 中 继 无 人 机 由 水 平 位 置 和 垂 直 位 置 两 个状 态 组 成 被 定 义 为
: , 

K、 ,
凡) , 其中 f 为 中 继无人机 的 水平平面坐标 , 状态 空 间 能 够 被表


示为 \ :


0, 1 …

& 丨
, 7, :

0 ,
1 . . . ;

^ }
, 10 和 & 为特定 区域 内 最大 的 位 置坐

标 每 次试验 中 每 架 中 继 无 人 机 的 初 始 状态 位置 都 是 随 机确 定


。 , ( )

的 ,
更新 Q 网 络 则 由 中 继无人机 的 初始位置 、 追 踪 无人 机 数 量和 追 踪 无


人机 的 位 置 决 定 。 当 每 架 中 继 无 人 机 离 最 佳位 置 越 近 , 更 新速度 越快 

2) 行为空 间 : 这 些 动 作 用 于 改 变 中 继 无 人 机 的 行 为 以 响 应 每个 时 隙 处 的 状


态 我 们 假 定 中 继 无人 机 的 行 动 由 


°

飞 行 方 向 必 <0 ,
3 60
; |

必 e Z

飞 行距 离 元 组成 在每 次实验 中 基于 时 隙 ”



% : , ,

的 当 前 状态 \ 和 基于 Q 网 络 的控制 策略 , 中 继无 人 机 开 始 执 行 动 作 a 以

 ,

响 应状态 4 。
最优动 作 使多 无 人机 网 络 的 平均 回 报最大化 



奖励 :
奖励 定 义 了 中 继 无 人机 部 署 方 案在 当 前状 态 s 对时隙 n 中 所采 用

1 



第二章 基于 D QN 算 法 的 中 继 无 人机 部 署 与 轨迹 规 划 方案 

的动作 a 的影响 。 在我 们 的 模 型 中 , 我 们 使 用 添 加 中 继 无人 机 和 未 添 加


中 继 无 人 机 的 整 个 网 络 的 共 识 收敛 时 延 差 值 和 中 继 无 人机 消 耗 的 能 量 

这 两 部分 的 加 权和 来 量化我 们 的 优 化 目 标 , 基于 以 上 的 优化 目 标来确 定


最优 中 继 无 人 机 的 位 置 , 因 此 我 们 的 奖 励 方程 可 以 通 过 如 下 这 种 形 式 计


算得 到 


2 25)


來 , W )
+ C
2 




( ‘ (

n 

 l

2” "

N 

2 3 3
. .
算 法 流 程描 述

算法 2 -
1 基于 D QN 的 中 继 无 人 机 初始 化 部 署 算 法


1 :
随 机初始 化 多 无 人 机 追 踪 网 络 分 布

2 : 初 始 化 经 验 回 放 内 存 马 和 !^

3 :
初始化两个 行 动 值 函 数 -

糾 和込 ) ( w2 |
巧 )
, 其中 沒 为 随机权重

4 : 初 始 化 两 个 行 动 值 函 数 么# # -


% %和 其 中 权重


沒 =
0和


6 >
6 >

1 2 

5 :  fo r  e
pi s o d e 

1
, 
M  do

6 :
 在 特 定 地 理 区 域 内 随 机 初 始 化 中 继 无人 机 的 位 置 坐 标

7 :  fo r n

1 ,
N  do

8 :
 基 于 概 率 £ 选择动 作 ■



否 则 选择 \ 狀容 〇 和 〇 ^ 02
^0

严0
9 :

1 11 > ? ,
6 >
〇 11 5 £1
1 ( 1 |
1 ) 2” 2 (

2 |



1 0 : 执行动 作 a 和 a l n 2? , 观察奖励 r
? , 更 新状 态 ^^

1 1 :
 储 存 转 移 样本 (

? ,
人 ,
^^  )
放入 马 和 (
* ?
? ,  , 

n ,
\+ 1

放入 D 

1 2 :
 从 ^ 和 仏 中 随 机 抽 取 小 批量 转 移 样 本 


S a r ,





+l
{ j j j 

1 3 :
令 凡 .



+,m x 2_ n (

M ,
a ; W *

 )

1 



北 京 邮 电大 学 工 学 硕 士 学 位 论 文


+ / m ax
a^


y 2 J 

j
 

1 4 :
对 ? -


2 1
( \ ,
气^ ) )
和 >


0 2
( 5


% 丨

2 / ) )
利用 沒

和 沒 米用


 ,
( (
_

梯 度 下 降 的 方法最小 化损 失

1 5 :
令 心 =
?+ 

1 6 :
每 C 步更新相 应 的 目 标网络 :


1 7 : End  fo r

1 8 : End  fo r

基于 D QN 的 中 继 无人机最 优初 始 部署 算法 如 算法 2 -

1 所示 。 D QN 模型主要


由 两 部 分 组成 : ( 1 ) 两个深度 神 经 网 络 ( DNN ) 和 ( 2 )
Q

学 习 决策 模 型 。
神经

网 络可 以 解决 高维动作 空 间 的 问 题 。 通过拟 合 函 数 而 不 是 Q 表 来生 成 Q 值 , 


们 可 以 得到 相 似 的 状态和 输 出 动 作 。
因此 , DN N 对复杂 特征 的提取有很好 的 效


果 同时 D QN 有 个类 似 于 的 更新公式 可 以 最大化折扣 长 期 回


。 ,

l e ami n g ,

报 , 如 下 所示 

Q { s^ an )

 E S
n +i 
L
r+ y msx

n+l

Q ( sn + l


n+x ) 




2 26)


其中 A 表示在 时 隙 n 下 的 的 当 前状态 和 行 为 。 5
?+1
, l

?+ 1
是下

个状 态 和 动


作 。

' 是 状态 8 的 奖励 , 0
分 < 是折扣 因 子 1 。 当 ;

趋于零时 , 中 继 无 人机 主 要


考 虑 即 时 奖励 。 当 / 趋于 1 时 , 中 继 无 人机 主 要 考 虑 未 来 的 奖 励 

在 我们 的 机 制 中 , 中 继无人机 的 动作 由 飞 行方 向 和 飞 行距 离 组成 。 因此 , 


我 们 的 设 计 和 实现 中 , 我们 使用 两个相 同 的 D QN 模型 分别对它 们进行训 练 。 


们 可 以 表示为 两 个 行 动 值 函 数 -

批 和2 ) 2 Cs ,


2 |
内) 。 相应的 目 标 网络可 以

表示为 和 2_ 屮?〇 :
。 在 每个 D QN 模型 中 , 我们使用




两 层 的 全 连接 的 神 经 网 络 第 层有 个神 经 元 第 二 层 有 个 神 经元 R eL U


。 20 , 20 。

用 作激活 函 数 

在 学 习 和 更新过程 中 我 们使用 经验 回 放缓冲 区 来 更新 和 存储 收集 的 环境 样



 ,

本 。 经验 回 放缓冲 区 以 大 小 D 初始化 。 在 每个 时 隙 ,
观 察 到 的 状态 、 动作 、 奖励


和下 个 状 态 被存 储 到 该 缓 冲 区 中 然 后 从 该 缓 冲 区 中 随 机 抽 取 小 批状态 序 列



来更 新 D QN 网络 。 在 具 体 的 更新 过 程 中 ,
我 们 使 用 梯 度 下 降法 来 更 新 权 重 参 数


和内 经过 定 次数 的 迭代 后 Q 込 网 络 的 参 数被 复 制 到 网络

3 。 ,



我们 使用 最 优 a a
_
网 络和 Q 网络 的 最 小均方误差来定义损 失 函 数 。
两 个损 失 函

数 与 ⑷ 丨 厶 ^^ 都 可 以 表 示 为 

1 


第二 章 基 于 D QN 算 法 的 中 继 无 人 机 部 署 与 轨 迹 规 划 方 案
 



⑷ =



么一

的 ^ 丨 ” ,
) )


2 27)


1 >

2 ( 爲 )
能够 以 相 同 的 方式被获取 , 是 目 标网络的值 , 可 以 被表示为 

k 
+ r m ax

2 (^ I + 1

? +1  丨  (
2 28-




\ n+\

能 够 以 相 同方式 被获取 ,
3 和 爲 能 够 通 过 两个损 失 函 数 


利 用 梯 度 下 降来更 新 , 其可 以 被计算 

⑷ 4 么_ \ 2

( ? ,
幻 ]

4以? ,
? 网 ▽# (? ? )

⑷ ]

2 29)


▽a 1  〇

2 )
能够 以 相 同 方 式 被 获 取 

在 每个 时 隙 更 新 参 数 ^ 和 氏 后 , 行动 a 和 l n
都会停止 。 并 可 根据 贪 婪 算 法


进 行选择 , 即 在概率为 s 的 情况 下 随 机探索 动 作 , 并在概率 i

s 为 的情况 下 使用

神 经 网 络决策获得下 个动 作 贪婪算法可 以 鼓励 中 继无 人机进 行 探索 并 防止程




序 陷 入 局 部 最优 值 

1 



北京 邮 电 大学 工学 硕 士学 位论文 

2 3 4
. .
算 法 具 体训 练 流程

开始m

Z TZ

 "

计算 当 前 的 网 L 

机 的腿状 态


中 觀人 謎 

探素 ? 值来


动作

中 继 无人 t ms 动

 i

m t到 麵 和下 

个状态 



得 到 織 样本 包 括当 献 
 ,

态 離 麵 下 状态
、 、 
 、

和 是 否 终 止 搭 其存 储在 经
, 

验池 中






当经验池 中 的经验数垦大于
b a c h 大小 时



 

 从 经验池

中 

随 t ,

机 取 釋 匕 故 如 大 小的样本 计 一一
麵調一 。 

训 每结采
 算 当前 网 络 下 的实际 Q fi 开 
 ?

 — " ■ … … —

 
mm 

图 2

3 D QN 训 练模块 

20



第二章 基于 D QN 算 法 的 中 继 无 人 机 部 署 与 轨迹 规 划 方 案 

步骤


开 始 进入 D QN 的模型训 练 , 设 置训 练 的 回 合数 为 5 00 轮 , 判 断是

否完成 回合训练 , 如 果完 成 , 则 模型 训 练完毕 , 如果 没有完成 , 则 进入步 骤 二 



步骤二 :
随机重置 中 继无人机 的 位置状态 , 状态空 间 能够被表示 为





〇 ,
l . . . ZD }
, yr :


〇 ,
l “ . ;

^ }

心和 }
^ 为特 定 区 域 内 最大 的 位置坐标 

步骤三 :
判 断 是 否 完成每个 回 合 下 的 步骤训 练 , 步骤训 练值 设置为 500 步 

如 果 完 成 则 进入 回 合 判 断 进入 新 轮的学习 如 果 没有完成 则 进入步 骤 四


, , , 


步骤 四 :
中 继 无 人 机 利 用 概 率 超参 数 ep s i l on 在 随机和 Q 策 略 间 选择 动 作 来


探索 环境 , 在 探 索 环 境 的 过程 与 环 境 进 行 数 据 交 互 , 该 数据 包 括 加 入 中 继 后 整 个


网 络 的 参数 , 如 每 条链路 的 相 应 的 信 号 与 干扰 加 噪 声 比 、 链路速率及 链路 时 延 

飞 行距离 中 分别 选择特 定


°
动 作 的 选取 , 会在飞 行方 向 必 e

0 3 60


步长 

步骤五 :
得到 与 环境 交互 的 参数后 , 通 过 奖励 公 式 得 到 相 应 的 奖 励 值 , 建立

状 态 转换 同 时 将得到 的 转移样本 包括 当 前状态 动作 奖励 下 状态和 是




, , 、 、 、

否 动 作 终 止 五 种 状 态 储 存 在 经 验池 中 

步 骤 六 当 经验 池 中 的 经验 数 量 大 于 :
b at c h 的大小时 ( b at c h 我们 设置 为 5 00 ) 

从 经 验 池 中 随 机 取 出 b at c h 大 小 的 样 本 , 依 据 公 式




°
计算 当 前 网 络 的 的 Q 值 , 其中 ,
& 为在 状 态


^ 下 采 取 动 作 《 得 到 的 奖励 值 ,
/ 为折扣 因 子 , 我们 设 置为 〇 9 9>


步骤七 : 计算 当 前 网 络状态 , 回 到步骤


, 如 果 训 练完毕 , 输 出 训 练模 型 

2 


北京 邮 电 大学工 学硕 士学位 论文 


2 3 5
. .
算 法 具 体实 现 流程

迨 驗 人机 隨初 始化戀 初 始 

化贿追驗人棚 

布 在 初始化 的 时 隙 中 假定所有
, 
 ,

追 齡的



追 駄 人 顯 络状 親 碰始 化的 时


隙 中 假定所 有 追 踪 无 人机 是静态 的 计 算 当 前
, 
 ,

追 踪 无 人机网 络 的 网 络 状态 包 括 每条 链路的泪

 ,

应 的 信号与干扰 加 , ^ 比 链 路 速 率 及链路 时延

 、




进入 D Q _ 除 模

mm D Q N v m


mm



龌棚 雛


中 继无人 _位 置

 ^  ^ 

得到 满 物 最従 中


继 无人 机祕 署 織

图 2

4 算法 1 实 现 流程 图

步骤 进入追踪无人机 位置初始 化模块 通过 随机 函 数初 始 化追踪无人




: ,

机 的 起始 位置分 布 使其 随机分布在 定 的 区 域大小 内 初始化 分布时 每架




, , ,

无人机之 间 为 了 防止冲撞应满足相 应 的距 离 限制 , 距离 限制 为 20 米 

步骤 二 进入 追 踪 无 人 机 网 络 状 态 初 始 化 模块 在 初 始 化 的 第 个时隙 中 


: ,

定 所 有追 踪无人机是静态 的 , 通过 建模过程 , 计 算 当 前追踪无人机 网 络 的 网 络状




态 , 包 括每条链路 的 相 应 的 信 号 与 干扰加 噪 声 比 、 链路速率及 链路时 延 

步骤三 :
进入 D QN 的模型训 练模块 

步骤 四 :
进入 中 继无人机训 练测 试模块 ,
随机初始 化 中 继无人 机 的 位置 , 

使

用 训 练模 型 进 行测 试 , 得到 满足条件 的 最优 中 继无人机 的 位置坐 标 



22



第二章 基于 D QN 算法 的 中 继 无人机部 署 与 轨迹规划方案 

2 4

基于 D QN 的 中 继 无 人 机 轨迹规 划 算 法

在本节 中 , 当 所有追踪 无人机开始追踪任 务 时 , 追踪 无 人机 的 位置在每个 时




隙 中 是动态变化 的 , 因 此最佳 中 继 无人机 的 位置 也会 随着追踪无 人机 的 位置变 化


而变化 为此 我们提 出 了 种基于 D QN 的 中 继无 人机动 态轨迹规划 算法

。 ,


2 4
. . 1 算 法模 型定 义 及 流程

当 追踪 无 人机开 始 持续移动 时 , 整个追踪无人机 的 网 络 拓 扑将 时 刻 发生 变化 



网 络拓 扑 的 变化将会 导 致 些无人 机之 间 的 链路可 能会随 时 发生 中 断 这使得





些 无 人 机 也 许 无 法接 收 来 自 其他无人机 的 追踪信 息 。 其次 , 共识 算法 的 收敛条 件




是必须 存在 棵生 成树 且通信 链路 的 时 延满 足 定的 约束条件 保证共 识 算法


一 一

, 。

的 收敛 性 也 是我 们 需 要 考 虑 的 问 题 

在 考 虑 中 继 无 人 机 的 轨 迹 之 前 我 们 假 设 所有 追 踪 无 人 机 的 轨 迹 采 用 随 机 游

 ,

走模型 , 且 以相 同 的 高度和 速度飞行 。 追踪无人机的运动沿飞行方 向



和 飞 行距离 均勾 分布 在这种情况下 我 们 的 算 法可 以 根据


°
沒_ ^ 0 3 60

< ? ^
。 ,

[ 1

追 踪 无 人 机 的 运动 情 况 获 得 中 继 无 人 机 的 动 态轨迹 。 在每个时 隙 中 , 当 追 踪无 人


机开始 移 动 时 , 相 应 的 中 继无人机也会选择两个 动 作 % 和 ,

2 ?
, 包括 飞 行方 向 和


飞 行距 离 然而 对于 相 应 的 奖励 函 数 相 对 于 算法 我们进行 以 下 的 更 改

。 , , , 

r= F n (
n +  〇 n
)
+  C (




) [


.,咖



2 3 〇)





-,



) 乂》 )

+^
2 /


^
E re l a




X 

+〇


)
+  C




n 

 \

2 ,
. . ,

N 

其中 0 ( 0和 是 多 无人机 系 统在第 n 时 隙 下 的 中 断和 共识 的 奖惩 因 子 , 具体


可定义为 

2 0 0

/7
/ < I 

 


0 U ta g e  o ut a e

 〇 n
〇 ? = =

u 2 3 -


( 


( )

I

200 < I
^ 
o u,a
ge  on
^ e

f  〈 广

J  Ij f  



Z ^

J ^ consen su 
_

^ xj y

 0 f C 

C (

)
= <

 con s en s us 

 C c o n s en su s 

 1

2 32)


2 0 0 C > C

v/ vr  ^ 

cons en s us  c o n s en su s


23



北京 邮 电 大 学 工 学硕 士 学 位论 文 

其中 是 多 无人机 M 络 中 加入 中 继无人机后 的 中 断状态和 共识状




态 。
和 CL S_*
是 没 加 入 中 继 无人 机 的 中 断 状态 和 共 i只 状 态 

算法 2 2 -

基于 D QN 的 中 继 无人机 轨迹规划 算法


1 :
随 机初 始 化 多 无 人机追踪 网 络 分 布

2 : 通 过 算法 1 初 始 化 中 继 无人机 的 位置

3 :
初始 化 两 个 行动 值 函 数 -

幻和込 ( ^2 1
沒2 ) , 其中 沒 为 随机权重


4 :
初 始 化 两 个 行 动 值 函 数 2_ & ? -

1 1

和 0_ 士 > 丨 |
^〇 , 其 中 权重


和& 0 




5  :  fo r  ep i s o d e 

1
, 
M  do

6 :  fo r  n 

1
,
N  do

7 :
 更 新每 架 追踪 无 人 机 的 位 置 坐 标

8 :
 基 于 概 率 s 选 择动 作 ? 和 a 2?

9 :
否 则 选 择a l n

 a rw m ax 
<
? 1 (¥, £1
1 丨
01 ) 和 =
a rg m a x  g
2( A a
J A 


aX a


1 0 :
执 行动 作 a 和 f

l n 2? , 观察奖励 /

? , 更 新状 态 & + 

1 1 :
 储存 转 移 样 本 (
■ ?
? ,
a l n , , j
?+ 1
 )
放 入 和 (

? ,
a2 ? ,

? ,  \+ 1 )
放入 Z 



1 2 :
 从 A 和 £ 中 随 机 抽 取 小 批 量转 移 样 本

 >

S a ,
r s
j+ l )
, ,
2j
( j j 

1 3 :
令 ^ :


 r
; 一

 ( ? ,
a ;
⑷和

y2 J 

 r + x m ax
 Q^ ,

+l ,
d2 e 2
j

 [ J 

1 4 : 对 凡


_

2 也 .


%凡 ) f
和 (
J2 厂 込 ( \ ,
? 丨

% 利用 3 和 A 采用

 ,

梯度 下 降 的 方 法 最 小 化 损 失

1 5 :
令 心 =
\+ 

1 6 :
每 C 步更 新 相 应 的 目 标网络 

1 7 :  End  fo r

1 8 : End  fo r

24


第二章 基于 D QN 算 法 的 中 继无人机部 署与 轨迹 规划方 案 


2 4 2
. .
算法 具 体 实 现 流 程

初 始化所有迨踪  机 的 

位S 利 甩 方案 m i 最
, 
 一

优的 中 缝无 人 机的 位暨

驗无人机移


臟 人机开娜 ^ 





 人机移


达 待走

丫 

SA D Q N 训 续植


块 得到 D Q N 练,
 il 丨 I

mm 

 : :  

输 出 中 蓬无人 机 的  ■ 试 中 _^人_  




图 2 5

算法 2 实 现 流程 图

步骤 初 始 化 所有追踪无人 机 的 位置 利 用 算法 2 中 得到 的结果找 到 最


: , 1

优 中 继无人 机 的 位置 

步骤 二 : 进入追踪无人 机移动 模块 , 每 架 追踪 无人机 以 5 0 米每秒 的 速度 



遵从 随机漫步 的 移动 模型 移动 步

, 

步骤三 : 判 断追踪无人机 的移动步数是 否达到 特定步数 , 如 果达到 ,


则输出

中 继无 人 机 的 最 优 轨迹 部 署 ,
如 果没有达到 ,
则 进入 该 次移 动 下 的 D QN 模型训

练模块 

步骤 四 进入测 试模块 使 用 训 练模型 进 行测 试 追踪无人机移动 步 




, ,
: ,

继无人机移 动 步后 再 次进 入 追 踪无 人 机 移 动 模块




2 5 .
仿 真结 果 与 分析

本节对 中 继无 人机 的 初 始 化最优部 署 算法和 动 态轨迹算法 的 仿真结 果 进行



了 评估和 讨论 在仿真中 我们 在 个大 小 为 的 地 理 区 域 内 部 署 了4


。 ,
l 〇〇w x l 5 0w 

25


北京 邮 电大学工学硕士 学位论文
 

架追踪无人机和 架 中 继无人机 其他仿真参数如 表 所示 之后 我们 将我们




。 2 -

1 。

的仿 真结果与 Q

学 习 和 随机部 署 算法进行 了 比较 

2 5
. . 1 仿 真场 景

表 仿 真 参数 表


  


参数 
描述 
M 



无人机 的 传输功 率 
20dB m




^ 
1 MHz




追 踪 无人 机个数 







信道 系 数 

5 0dB


/ 
折扣 因 子 
0 9

 .


I 
学习率 
00 1


W 
能量 消 耗 系 数 
1 00


共识 系 数 
0 95

 .


能耗 系 数 
0 05

 .

2 5 2
. .
仿 真结 果 及 分 析




基于 D QN 初始化部署 算法 的 仿真结 果


图 2 -

6 显示 了 不 同 算法 的平均奖励训 练结果 。 我们 可 以看到 , 中 继无人机的



动作可 以 在每 次训 练 回 合 中 被不断修正 以 提高平均奖励 实现最大 回 报 可以




, 。

观察到 , 与 Q 学 习 和 随机部 署 算法 相 比 ,
我们 的 算法可 以 获 得更 高 的 平均 回 报 

图 2 -

7 显 示 了 中 继无人 机在 不 同 算法 下 寻 找 最 佳 位置 的 步骤 数 的 训 练测 试结 果 

我们可 以看到 ,
与 Q 学 习 和 随 机部署算法相 比 , 我 们 的 算法可 以 用 更少 的 步骤

获 得更 高 的 回 报 

 h



… 一

60
- ■  ̄
  
— ?


Ra n d o m  d e p oym ent



80  J
 | l  ( l
 



: :

,   
 
 

,  

〇  100  2 00  300  40 0  50 0
 q ^ l 〇  5 2 0 2 5  3〇

n u mbe r  of  t ra i n  e p sod e
i { ste p o n e )  t est 
r e ay


u a v ma v n g
 t

st ep

图 2 6 -

不 同 算法下平均 回报比较图 图 2 7 -

不 同 算 法 下 中 继 无 人机测 试 步 数 比较 图

图 2 -

8 、 图 2 -

9 显示 了 中 继无人机 的 能耗和 多 无人机 网 络在 不 同 算法和 不 同



测 试次数 下 有无 中 继无人机 的 共识 收敛 时 延差 异 。 我们 可 以 看到 , 当我们将 中 继




26



第二章 基于 D QN 算法 的 中 继 无人机部 署 与 轨迹规 划 方案 

无 人 机 的 能 量 消 耗 和 多 无 人 机 的 共 识 收 敛 延 迟 差 与 奖励 函 数 解 耦 时 我 们 的 算 法

 ,

在 能量和 收敛时 延方面 优于 Q 学 习 和 随 机部署 算法 





rn7 7^ 
 l :





 —
R a n d o m de p oy m e n 

 
 y




h t

 | 一〇 .



h h
 ^



|  \ /


A n /   /
1 


卜令 _







* "  ̄




" "
^< '




" "





? <>



^ 1



^ #


c

 


?r


 R i
a n d o m d e p o y m e n t

°





二  ̄  ̄






 ̄ l
3 -

i o〇 J 


  



 




2 5  7 1 0  12  15  17 2 0  2 5  7 10 12 1 5  1 7  20



Te s t  n u m b er Te s t n u m b e r

图 2

8 不 同 算 法 下 中 继 无 人 机 能 耗 图图 2

9 不 同 算 法 下 中 继 无 人机共识 收 敛 时 延 图


2) 基于 D QN 轨迹规划 算法 的 仿 真 结 果

图 2

1 0 显示 了 追踪无人机在移 动 时 不 同 算法 的 平 均 奖励 训 练结 果 。 在每个


时隙中 追 踪无 人 机 飞 步 中 继无人机执行 个动 作 并 从其错误 经验 中 不 断


一 一

, , ,

学习 ,
以 提 高平均 回 报 。 可 以 观察到 ,
当追踪无人机移动 时 , 我们 的 算法 比 Q 


习 和 随 机 部 署 算法 能获得 更 高 的 平 均 回 报 , 且算法波动较 小 , 稳定度更高 

5 〇 〇
- 

〇 -

i ea r n ng

i

R a n d o md e p o y m e n t
 


 l

0  1 0 0  2 0 0  3 0 0  4 0 0  50 0

n u m be r o ft r a ne p s o d ei i

s te
pt w o 

图 2 -

1 0 追踪 无 人机移 动 时 不 同 算 法 下 平 均 回 报 比较 图

图 2 -

1 1 、 图 2 -

1 2 显 示 了 中 继无人机 的 能耗和 网 络共 识 时 延 差在不 同 算法和




不 同 轨迹 下 的 仿 真结 果 通过 网 络 的 训 练和 学 习 我们 共测 试 了 六条 不 同 的 追


。 ,

踪无 人机和 中 继无 人机轨迹 。
对于 不 同 的 测 试轨迹 , 可 以 看 出 我们 的 算法始 终都


优于其他 比较算法 ,
都 能 获 得较 低 的 能量 消 耗 和 共识 收 敛 时 延 

27



北京 邮 电大学工 学硕士 学 位论文


   —



0

18
f :

DO N 

 

 15 0  cH ea m n
 



, — ̄


少 一

£

 Ra nd o m d e p o y m e nt
 l

 



二 二  !

 //


t80 
一 -
 Ra n d o m  d ep o


me n t

 | 〇 

、 

 /

! 〇〇

 


X X ■ 一

1 2 3 4 5 6  1  2  3  4  5  

ra e c o


t r
y  t r a

ec t o r


图 2 -

1 1 不 同 轨迹和算 法 下 的 能 耗 图 图 2 -

1 2 不 同 轨迹和 算 法 下 的 共识 收敛时延差 图

图 2 -

1 3 、 图 2 -

1 4 显 示 了 多 无人机网 络在 不 同 算法 下 的共识概率和 中 断概率 



在 追 踪无人 机运动 的过程 中 , 也 就 是 随机部署算法 中 , 我们可 以 看到共识概率很




低 ,
接近于 1 0 % , 中 断 概 率接近于 55 % 。 通过在 飞 行过程 中 加 入 中 继无人机 , 

时 利 用 我 们 的 算法 可 以 大 大提 高共识 概率 , , 降低 中 断概率 几乎可 以 达 到 , 1 00 



的共识和 1 0 %的 中 断 , 与其它 算法相 比 , 我们 的 算法也 具有 明 显 的 优势 



叮 翁H 二




, ,  

 3

r 二 一

j 

t M MU  


0 J

 I yi l i i li i li : :

0 2 00  40 0 600  800  10 00  0  2 00  40 0  6 0 0  S 00  100 0



nu m ber o f   tra i n e

 i s od e  nu m be r of 
tr a i n e p so d e
 i 

图 2 -

1 3 不 同 算 法 下 的 共 识 概 率 训 练 图 图 2

1 4 不 同 算 法下 的 中 断概率 图

2 6

本章小结

在本章 中 , 我 们 主要 研 究 多 无 人 机跟 踪 网 络 的 共识 和 能 耗 问 题 。
我们 引 入 了

个 新 的 网 络 框架 加入 了 架 中 继无人机 同提出 了 种基于 DQN 的 中 继无




一 一

, 。

人 机部 署算法 , 用 于 初始 化部 署 中 继无人 机 , 寻 找其最优 的 初始 位置 , 在这个过




程 中 优 化 了 整 个追踪 网 络 的 共识 收敛时 延和 能量消 耗 。 此外 , 当 追踪 无 人机开始


移动时 我们 提 出 了 种基于 DQN 的 中 继 无 人机轨迹规划 算法 以 优化多 无人


, ,

机追踪 网 络 的 共 识 概率和 中 断概率 。 仿真结果表 明 , 与 Q 学 习 和 随机部署算法




相比 ,
我们 的 算法具有更好 的性 能 

28



第三章 基 于 MAD QN 算 法 的 多 无 人 机 轨 迹 和 功 率 分 配 联 合 优 化 方 案 

第 三章 基于 MA D Q N 算 法 的 多 无 人 机 轨迹 和 功 率 分 配 联 合


优化方案 

本章介绍 了 改善 多 无 人机之 间 信 息共识收敛 时 延 以 及 多 无人机 能 效 的 第二



种 策 略方案 在该方案 中 我们提 出 了 种 基于 多 智 能体深度 强化 学 习 算法




。 ,

( MA D Q N ) , 通过 联合 优 化所有追 踪无人 机 的 飞 行 轨 迹及 其传 输 功 率 分 配 来 改


善 多 无 人 机追 踪 网 络 的 连通度 、 共识性能和 能效 。
首先针 对 多 无 人机追 踪场 景 

我们 建立 了 系统模 型 其次 我们将 该 问 题建模 为 个 随机博弈 问 题 针对 多 无




, , ,

人机 的 离散动 作 空 间 以 及大状态空 间 导致 的 计算复 杂度高 的 问 题 我们 提 出 了 利



 ,

用 MA D Q N 算 法来 求解 该 问 题 的 最优 策 略 , 最后 通 过 仿真对我们 的 方案进 行 了

验证 , 与 其 它 优化方法相 比 , 我们 的 方 案具 有 明 显 的 优 势 

3 1 .
系 统模 型

在 本 章 的 本节 中 我们依 旧 用 到 了 第 二 章 第 节 所描述 的 部 分模 型 包括信




, ,

道模 型 、 离 散共识 算法 模 型 、 能 耗模 型 、 共识 中 断概率模型 等 , 因 为这些部 分模




型在 本章 的 应用 中 并未做其余 改动 , 所有 我们 将 不在重 复描 述 该 部 分 , 后文的公


式 引 用 将直接对 应 于 第 二 章第 节 中 的 公 式模型 本节我们 只 对不 同及新添加 的


模型 做具体描述 

3 . 1 . 1 部 署 模型

Meva b l er a a g t

T AV


r a c ki a gt

、 … i 一

 /
Ae

t i v *  r a dU n s 、
   !




一 !

j 
 


、 1 :

i 

 ^
3 -

\ !

; | /

 r tt 

' 


1 /  


.


\ 

/  / 

^ 减鄉 私 


  


厂 

/  /

 r

?/ 



T ki
r a c n gt a r g t t
 Co n t r o l c * a t * r 

(  

图 3


部署场景 

29



北 京 邮 电 大 学 工 学 硕 士 学 位论 文


在追踪场 景 中 本文考虑在 个地理 区 域 内 部 署 M 个追 踪 标用 户 的 集合




, 目

M 

 f 和 J V 架追 踪 无 人机 的 集合 =

 {


2 . . .

 W 组 成 的 多 无人 机 追 踪 系 统 

在该系 统 中 所有追踪 无人 机在 同 高度 以 满 足 F_ Fm a 的 速度 飞 行 


, < v < 。

架 追 踪 无 人 机 负 责 追 踪 相 应 的 地 面追 踪 目 标 并 将 相 应 的 追 踪 信 息 传 输 给 相 邻 的

 ,

无人机 , 以 完 成对信 息 共 识 

本 文 假 设 追 踪 目 标 的 整 体轨 迹 是 随 机 的 所 以 追踪 无 人机 的 整 体 轨 迹 也 是 随

 ,

机的 。
然而 , 当 我 们 把 整 个 过 程无 限 细 分 至 每 个 时 隙 《 的 运 动 时 , 假 定 在每个 时


隙下 , 追踪 目 标 是 固 定 不动 的 , 此刻 , 只 要 保证我们 的 追踪 目 标在 追 踪 无 人 机 的

观测 范 围 内 即可 , 所以 , 在无 限个细 小 的 时 隙 ;7 下 , 追 踪 无 人机 的 轨迹是 动 态 可

规划 的 如图 所示 是我们 的 场 景部署 图 每 架追 踪 无 人 机 都 有 个活跃 半




, 3 -

1 , ,

径 , 且在 活跃半径 中 , 都 是 无 人 机 可 以 移 动 和 轨 迹 规划 的 范 围 。
另外 , 本文假设


有 个 中 央 控 制 中 心 可 以 收集所有 追踪无人机 的 位置状态 信 息 并 且 能 够发送命


令 , 要 求每架 追踪无人机可 以移 动 到各 自 相 应合适 的 位置 



该 系 统 中 所 有 无 人 机 之 间 的 网 络拓 扑 可 以 表 示 为 个图 G 五 其中



 ,

j 

表 示 为 该 图 的 邻 接 矩 阵 并 且 邻 接 元 素 满 足 % , 2 0 F , 

表示


由 # 架 追踪 无人 机 组 成 的 集 合 , 五 为每 对 节 点 之 间 边 的 集 合 , 节 点 的 邻居节 点

 f

集合 可 以表不为 化 ^ 任 ^
巧 ^卜 其 中

’ : 


^ /

? 3


( 


0 5  o th e rs

3 . 1 . 2 多 无 人机追踪模 型

本文 假 设 地面 追 踪 目 标 用 户 的 二 维 坐 标 为 〇 > ]

 ^> 凡 ] , [
?]

e  M ,



中 心 [
?] 和L [
?] 分别 为在 时 隙 《 下 , 追踪 目 标 m 在 X 轴和 Y 轴 的 坐标 。 追踪无


人机 的 水平坐标可 以 表示为 [
w] 

 e  JV , 其中 \ [
?] 和乃 [
w] 分别为


在时隙 《 下 , 追 踪无 人机 在 i X 轴和 Y 轴 的 坐标 。 因此 , 追 踪 无人机 与 追 踪 i


标 m 之 间 在 《 下 的 水平距离 可 以 表 示为 

〇 ]

 \l [
X i [
ri


m [
n]

 +

y i [
n]

ym [ n] f  (

2)

因 为 所有 追 踪无 人 机 在 同 高度 飞行 所 以 无人 机 的 观 察 模 型 的 数 学 表 达


式可 以表示 为 

<J?

U ? F +^  3 3)

]
 V ( 

〇 i m [
n] =

y Mzm  (

4)

30


第三章 基 于 M AD QN 算 法 的 多 无 人 机 轨 迹 和 功 率 分 配 联 合 优 化方 案 


其中 表示无人 机与 地面 目 标 之 间 的 夹角 , 为 了 保证 追踪 目 标 始 终 在追 踪 无


人机 的 观察范 围 内 , 该 夹 角 必 须 始 终满 足 ^
为无 人 机 与 地 面 目 


之 间 的 最 大夹 角 度 数 , 因此 , 可 以 得 到 每架 无 人 机 的 活跃 半 径 为 

Ra =
h tan 0
j m  (

5)

在 活 跃 半 径 下 我 们 便 又 可 以 得 到 每 架 无 人 机 可 以 移 动 和 轨 迹规划 的 范 围 区
, 

域 

K (

6)

除 此之 外 , 由 于 每架 无 人 机 的 飞 行 速 度 满 足 , 因 此每架无人机


都存在 个最 大 飞 行 和 最 小 飞 行距 离 限 制 它 能够 被 定 义 为

, 

^0 <
^+ ^ [ ?]

^5  3 7)

 1

| |

] | |
, ( 

其中 3

表 示 每个 时 隙 的 时 间 长 度 ,
匕 和 ^ 分 别 为 每 架 追踪 无 人 机 在 时 隙 3 中


 ,

的 最 大 飞 行 和 最 小 飞 行速 度 。
除此 之外 , 在飞行过程 中 , 为 了 避 免 所有 无 人 机 之

间 可 能 出 现 的 飞 行 冲 撞 无 人 机 的 冲 撞 避 免 限 制 也 应 该 被 考 虑 限 制 条 件 应满 足 , , 

2 2

I I 



W  | |
> D
m n


V i
, ;
e N ,
i ^ j   (
3 -

8)



其 中 l 为任 意两架 无人机之 间 的 最 小 间 隔 距 离 

3 丄3 信道模型

在本节 中 我们 依 旧 沿 用 第 二 章 第 节 的 描述 的 信道模型 我们假设 网 络 的




, ,

传 输 带 宽 为 5 Hz , 其 将 被 均 匀 地 分 配 给 每 架 追 踪 无人 机 , 可 以 被表 示 为 

B f

= -

 (

9)



进 步 每架 无人 机 之 间 的 信 息 传 输 功 率 可 以 被 表 示 为

, 



1 0)





其中 0  <
 f < Pm


ax
为无人机 的 传输功 率 / , Pm ax
表 示 每 架 无 人 机 的 最 大 传输 功 率 

A 表 示 无人 机 对 无 人 机 f
_ / 的 传输功率 

除此之 外 , 在 追 踪 过程 中 , 时 间 间 隔 r 被划 分为 M 个 时 隙 。 其 中 每个 时 隙 的

长度 是 3 ,
, r =
i v


4 。 同 时 我们 假 设无人机之 间 的 通信 信 道为 z as 信道 , 考虑


自 由 空 间 损 耗模 型 , 因 此 我们 定 义 信 道 系 数 为 

3 


北京 邮 电 大 学 工 学 硕 士学 位 论 文 


N
^ W = =
 3 -

1 1


… …


( 


r M   n   rp
刺 十 少刺
r r

h 卜 x +


」 [ _
乃 [


其中 《 表示时隙 ,
爲 表示在 名

l m 时 的信道系 数 , 其中 < 为 固 定常数  


表 示在 时 隙 A 下 无人机之 间 的 距离 。


虑使用 同 信 道 资 源 的 多 个无 人机之 间 存在 干扰 因 此通 过信 道 建模 可 以 计算 出


每条链 路 的 相 应 的 可 以 表示为 

Pj n n
[ [
N



” = 3

2)
\?

}f
… …
, ,
' ( 

其 中 & 为无人机 对无人机 /
_ / 的 传输功率 ,
& 是对 无人机 产生干涉 的 无人机 i
_ 

为 高斯方差 其 中 及 表示每 架无人机 的 网 络 的传输带 宽


的传输功率 ,


=
尽A /


, 

表 示接 收 无人 机 处 的 加 性 高斯 白 噪 声 ( AW GN ) 的功率谱密度 。
当 两架追 踪


无人机之 间 S IN R 满足 ;
^

仏 时 , 表示 该 无人机 和 无 人机 f
_ / 之 间 可 以 进 行 通信 

以 此类推 , 可 在 追踪无人机之 间 建立 网 络拓 扑 , 其中 仏 表示满足可通 信 范 围 内



SI NR 的 最 小 值 , 为 固 定常数 。
在 每个 时 隙 中 , 无人机 对 无 人机 i
_ / 的 数据 速率 可

以表本为 

^ [
?] =
孕 
l 〇g


l +
 & [

] )  (

1 3


基 于 获 得 的 数据速率 , 我们 可 以 计算 得 到 无人 机 的 总 数据速率 f , 其可 以 被


表示为 


= =
, l
y I



1 4)

ZZ B 〇§ + ^ ? ? l〇 g + / ? j e iV ^ j

! !
 1
2 2  ?  , 
/



 i
[ ] i
[ ]

 ( j 
 ( i 

= =
j
/ 1 

同时 , 我 们 也 可 以 计 算 得 到 无 人 机 和 无人 机 /
_ / 之 间 的 通信 时 延 

'W
為、 d 

3 5
_


 ( 

。g ?
2 [ ]

其中 表示 每架 无人 机每 次共 识 需 要 传输 的 数据 包 的 大 小 我们 假设其为


, 2) 。

个 固 定 的 常数 

3 1 4
. .
离 散 共 识算法模型

在第 二 章 的第 节 中 我 们 的 离 散共 识 算 法 模 型 主 要 考 虑 的 是 加 入 中 继 无 人


机 和 无 中 继无 人 机 的 共 识 算 法 的 收 敛 时 延 差 , 加 入 中 继无人机 后 , 因 为存在前 后


32


第三 章 基 于 M AD QN 算 法 的 多 无 人 机 轨 迹 和 功 率 分 配 联 合 优 化方 案 


场 景 的 变化 , 我 们 需 要 计 算 引 入 这种 差 异 化 而 带 来 的 提 升 , 而在 本 章 中 , 我们 并


没有 引 入 中 继 无 人 机 , 前 后场 景未发生 改变 , 因此 , 多 无 人 机追 踪 网 络 的 共 识 收


敛时延 可 以 被定 义为 

( 


^) 


c k


, ( 2 2 )

其中 9 和 〇 为正常数


心 e



〇〇


。 因此 , 我们 的 离 散共 识算 法模 型可

直接被 定义为无人机追踪 网 络 的 共识 收敛 时延 

Tc =

tT 〇〇 An )  (

1 7)

? =


3 1 5
. .
能耗模型

在第 二章 的第 节中 我 们 的 能 耗模 型 主 要 考 虑 中 继 无人 机 的 能 量 消 耗 


, ,

在本章 中 , 我 们 将 考 虑 所 有 追 踪无 人 机 在 追 踪 过 程 的 能 量 消 耗 。 在 该 过程 中 ,



人 机 的 能 量 消 耗 依 旧 主 要 包 含 两 个 方 面 无 人 机 之 间 的 通 信 能 耗 和 维持 无 人 机 机

 :

载飞 行 所 需 的 推进能耗 。 然而 , 无人机 网 络 中 的 通信 能 耗远 远低于 推进能 耗 ,




此 本章 我们 依 旧 不考虑 这 部分



具体 的 飞 行 能 耗组成及 公 式推 导 , 与 第 二 章该部 分相 似 , 我们 将不再重 复描




述 , 不 同 之处在 于 , 本 章 的 能 耗模 型 可 以 被表示为 

E^
f Ef {
v n ,
)  (

1 8)

?=1

其中 尽 为 每 架追踪 无 人 机 在 时 隙 《 下 以 速度 v 飞 行 时 所 消 耗 的 推进 能 量 

3 2 .
问 題构 建

在本 节 中 , 我们 主 要 对 本 章 中 所 需 要 的 优 化 问 题 进 行 了 详 细 的 描 述与 分 析 

对 多 无人 机追踪 网 络 中 的 共 识 收 敛 时 延 和 能 耗 问 题进 行 了 效 用 函 数 的 合 并 同 时

 ,

对追 踪 过程 中 的 网 络 共 识 、 中 断概率 的优化 问 题分 别 做 了 详细 的理论分析 。 追踪



在 多 无 人 机 追 踪 网 络 中 不 同 的 网 络 连 接 度 会 严 重 影 响 共 识 算 法 的 收敛 时 延
,

( 具 体在第 四 章 分析 ) , 网 络 连通度 越 大 , 共 识 算 法 的 收敛速度越快 。 这种 代数


连 通 度 可 以 通 过 改 变 边 的 权 重来 控 制 

在信 道严重恶化 的情 况下 , 由 于距离 的 限制 , 可 以 允 许无 人机节 点 的 传输 功




率发生变化 ,
以 提 高 通 信 链路 的 质 量 ,
从而 增 加 了 拓 扑 中 某些边 的 权重 。 通常 

33



北 京 邮 电 大 学 工学 硕 士学位论 文 

在 总 功 率 开 销 固 定 或 开 销 最 小 化 的 情 况 下 为 不 同 无人 机 链路 分 配 不 同 的 功 率 是

 ,

个重要 的 优化 问 题 也就 是说 在 定 的 总 功率开销预算下 通 过 改变 不 同 链


一 一

。 , ,

路 的传输功率 , 可 以 适 当 増 加 或 减少 拓 扑 中 某些链路 的 权重 , 从而可 以 使 网 络拓




扑 的 代 数 连 接度 最 大 化 , 从 而 提 升 共 识 算 法 的 收敛 速 度 

除此之外 , 无 人 机 在 飞 行 的 过程 中 , 即 使 在 防 碰撞 范 围 内 , 当 两架无 人机之



间 飞 行距 离 过近 或过远 , 而导致 的 网络拓 扑 结构变化 , 其依 旧可 以 影响 网络 的连




接度 , 进而 改 变共 识 算 法 的 收 敛 时 延 。
另外 , 飞 行过程 中 的 飞 行轨迹 也会影 响 整


个无人 机 网 络 的 能 量 消 耗 能 耗 问 题 依 旧 是 多 无 人 机 系 统 中 需 要 研 究 的 重 要 问 题
, 

因此 我们 的 优 化 问 题便 是可 以 通过 个整体 的 效用 函 数 来 联合 规 划 每 架


, ,

追 踪 无 人机 的 轨迹 以 及 每 架 无 人机 的 传 输 功 率 , 最 小 化 我们 的 优化 目 标 ,
我们 将


该 问 题 可 以 表述为 

mi n  (
3 -
1 9)

2 2

sJ cl. :
I I 

( [
?]

c [
n]  | |
>  D nin , 
V /
, 7  e  iV ,
/ V  


; i

c2 : T < d 


c3 : 6 >
?] < ^
m [ max

其中 & 和 为 共 识 和 能 耗 系 数 且 满 足 GG 

 1 。 cl 定 义 了 无人机之 间 的 最 小 距

离参数 , 以 防 止每 架 追踪 无人机之 间 发生碰撞 。 r 表 示 中 继 无 人 机 在 每个 时 隙 中



的移动 时 间 , 因此 , c2 定 义 了 中 继 无 人机 的 移 动 时 间 范 围 ,
C3 限制 了 无人机与 地

面 目 标之 间 的 夹角 度数 确保 , 目 标始 终 在 无 人 机 的 观 察 范 围 内 防 止 , 目 标被 追 丢 

3 3
. 基于 MAD Q N 算 法 的 多 无 人 机轨迹 及 功 率 联 合优 化 算法

在第 二 章 中 , 我们 主 要利 用 了  D QN 算 法 完成 了 中 继 无 人机 的 轨迹 规划 ,



属于 种 集 中 式 的 强化学 习 算法 然而 这种 集 中 式 的 方法可能会 带来 昂 贵 的 计


, ,

算复杂 度 。 因此 , 多 智 能 体深 度 强 化 学 习 ( mu l t i a g e nt  D R L

, MAD RL ) 可能是


以 较 低 的 计 算 复 杂 度 获 得策 略 的 另 种方法 同时 对于 处 理 大 规 模 控 制 路径


。 , 、

规划 或 博 弈 问 题 多 智 能 体 深 度 强 化 学 习 能 展 现 出 相 对 于 深 度 强 化 学 习 更 高 的 优
, 

势 

34



第三章 基于 M AD QN 算 法 的 多 无 人 机轨 迹 和 功 率 分 配 联 合 优 化 方 案 

3 3 1
. .
麟 论基 础


“ ”
强化学 习 的 主要 思 想就是 个不 断 试错 的 过程 智 能 体 通过 与 环 境 不 断


的 交互 , 利 用 获得反馈 , 不 断进 行 信 息 的 迭代 和 优 化 , 在 这 个 过程 中 , 我们 需 要


解 决 的 问 题通 常 可 以 被描述为 马 尔 科 夫 决 策过程 

马 尔 科夫 决策过程 延 展 到 多 智 能体 系 统 可 以 被定 义 为 马 尔 科夫博弈或 随机

 ,

博弈 。 在 随 机博弈 中 , 所 有 智 能 体 会 根据 当 前 的 环 境状 态 来 同 时 选 择 并 执 行 他 们


各 自 的动作 , 这些各 自 动 作 带来 的联合动 作 将会影 响 环境状态 的 转移和 更新 , 


决 定 智 能体 获得 的 奖励 。 它 可 以通过元组 〈
^ ,
^ ,


^ ^^ , ,
… 及
^ 来表 示 其 中 : 

表 示 状 态集 合 ,
4 和 厚 分 别 表 示 智 能体 的 动 作 集 合 和 奖励 集 合 〖 , T 表 示 环 境状


态转移概率 ,
y 表示损 失 因 子 。 此时 , 智 能 体 获得 的 累 积 奖 励 的 期 望 可 以 表 示

 f

为 

五 免

S =
a 4 冗 =
 20)
 ̄ ?

5 5 3
'  ̄+


 
( ) ( ,


i ) 1
 (  I
 )

。 ( 

L ^

o 

对于 马 尔 科 夫 博弈 也就 是 随机博弈 就要提到 纳 什均衡 , ( N ash  equi l ibr


i um ) 

其主要思 想就是在 多个智 能体 中 达成 的 个不动 点 当 形 成不 动 点 之后 其余任




, ,

意 个 智 能 体 都 无 法 通 过 采 取其 他 的 策 略 来 获 得 更 高 的 累 积 回 报 在 数 学 上 可 以


表达为 

i s  A ge n ts
 (

21)

其 中 ^ 表 示 智 能 体 的 纳 什均 衡 策 略
; / 

3 3 2
. .
基于 MAD Q N 算法 的 联 合 优化博弈 问 题 及模型 定 义

由 于 我们 的 优 化 问 题 具有 非 凸 性 和 组合性 , 同 时存在 多 个 需 要 优化 的 追踪无




人 机且 他 们 之 间 相 互影 响 因 此 我 们 可 以 将 该 问 题 建模 为 个 随机博弈 并用 提


, ,

出 的 M A D QN 方法 进 行 求 解 

在 多 无 人机 的 追 踪 网 络 中 我 们 假 定 每 架 无 人 机可 以 ,
自 主 决定 其 飞 行轨迹和


传输功 率 , 以 获 取最 大 效 用 R 。
每 架 无 人 机 的 效 用 是基 于 当 前 网 络 环 境 的 状 态 和


其 它 无人 机 的 行 为 然后 网 络 环 境 将转变为 种 新 的 随 机 状态
39]
这取决于之



, , ,

前 的状态和之前采取 的 行动 。 因此 , 我们 的 问 题可 以 被建模为 随 机博弈




忒八¥ 其中 表示状态 空 间 表 示无 人机 的 行 动 空 间 表示状态



S , [
40] 。 S ,
為 f , 尸

转移概率 ,

& 卜為 表 示通 过 采 取 动 作 為 使 得 状 态 从

S 变为 的 状 态转移 概 率 

因此 , 在 随机博弈 中 , 我们 模 型 的 状 态 、 行 为 和 奖励 可 以 被 定 义 为 

35



北京 邮 电大 学工 学硕士 学 位论文 


) 状态 风《 ]
: 每 架 追踪 无 人 机 的 状 态 可 以 他 们 的 位置 坐 标 表 示 被 定 义 为 , 

[ ' [
?] ,
乃 [
?]
f , 其中 为追踪 无 人机 在 时 隙 《 下 的 水 平 平 面坐

 f

标 。 因此 , 我们 的 状态 空 间 能够被表 示为 

S [ n] 

 {

^ n X c^ n ] ,
. . .


^^ ] }  (

2 2)

每 次试 验 中 每架 中 继无人机 的初始状态 位置 都 是 随机确 定 的


, ( ) 

2) 行动 空 间 為 [
?] : 在 追 踪 过程 中 , 在 每个 时 隙 《 下 , 每架 无 人 机 就 需 要 决


定 自 己 的 轨 迹 和 相 应 的 传 输功 率 , 这 些 动 作 将 用 于 改 变 无人 机 的 行 为 以

响 应 每个 时 隙 处 的 状态 。
因此 , 每架 追 踪 无 人 机 的 行 动 空 间 可 以 被表 示


为 

4 ?] =

化 3 23 )

[ ( 

其 中 无 人机 的 轨迹行动 可 以 表示为 =
丨 丨
, 其中 rl


?] 


示无人机 在 时 隙 《 下 的 飞 行方 向 


°
f rl .


w] e 0 3 60

, rl

n] e Z ,

[ ] ,

示无人机 在 时 隙 / ;7 下 的 飞 行距 离 rl
JM
e Z 。 无 人机 的

功率 行动 为 <0 户_ 在每 次实验 中 基于 时 隙 《 的 当 前状态


6 [
?] ,
。 ,

风《 和 基于 ] Q 网 络 的 控制 策略 , 每架 无人机开始 执行动 作 為 [
?] 以响应


状态 , 最优动作 使多 无 人机 网 络 的 平均 回 报最大化 


) 奖励 回 报 式 [
?] :
奖 励 回 报 定 义 了 每 架 无 人 机 在 当 前 状 态 5^ 对 时 隙 n 中

 ]

所采 用 的 动 作 4 [
?] 的影响 。 在我 们 的 模 型 中 , 我们使用 整个 网 络 的 共识

收 敛 时 延 和 每 架 无 人机 消 耗 的 能 量 , 这两 部 分 的 加 权 和 来 量 化我 们 的 优


化 目 标 , 同 时 考虑 , 当 追踪 无 人 机 的 轨 迹 飞 出 了 可 观 察 范 围 时 , 应当给


予相 应 的 惩 罚 户》1


?] 。 当 所 有 无人 机 由 于 链 路 时 延 过 大 或 链 路 质 量 不 好


而导 致 的 链路 中 断 , 使得我 们 的 追踪 网 络 无法共 识 , 也 就是说 ,
共识 算


法不 收敛 , 在这种情况下 , 我们 应 当 给与 相 应 的 惩 罚 PW 2 .



。 因此 , 


们 的 奖 励 方程 可 以 通过 如 下 这 种 形 式 来 计 算 得到 



?] 

 + P u l[n] + 
 Pu 2 [
? ]
UM



3 -
24 )

=  -

h P u l n] + P u 2 n]

^ M

^[

  [ 

^ rc [ w ]

当 无人机 采取 了 行动 為 f

w] 并 且 其 它 无 人 机釆 取 了 行 动 足 , 无 人机 也

 f

许 获得奖励 及 , [
?] =
及 ,

《 ,
5[?] ,
4 [
?] ,
< [
?]

, 其 中 行动 向 量 能 够被 定

36


第三章 基 于 M A D Q N 算 法 的 多 无 人 机 轨 迹 和 功 率 分 配 联 合 优 化 方案 


义 作 为我 们 的 博 弈 中 的 可 行 解 当 每 架 无人 机 在 任 何 个S 下 满足 以 下 不等




?] ,

式时 , 我 们 认 为 我 们 的 博弈 实 现 了 纳 什均 衡 

^ R 

 (
n 5 [?] , ,
4 [
?] ,
^ -

,  w )  (
3 -

25)

在 纳 什 均 衡 状 态 下 每 架 无人 机 的 动 作 可 视 为 对 其 他 无 人 机 动 作 的 最 佳 反 应 ,


所 有 无 人 机 都 无 法 从单 边 偏 离 中 获 得 收 益 此外 考 虑 到 这 种 随 机博 弈 是 周 期



4 1

。 ,

性的 网 络环境 的 状态将在每个 回 合 结束后 被重置 在每 回合中 执 行所有 无




。 ,

人机的 策 略后 , 从环 境 中 获得 累 积 奖 励 。
如 果 所 有 无 人 机 都 能 获得有 关 奖励 函 数


和状态转 换 的 信 息 , 则 可 以 使用 整数规划 方法找 到 纳 什均 衡 。 然而 , 在这种 随 机


博弈 中 ,
无 人 机 无法 获 得 此 类 信 息 。 因此 , 为 了 解 决这个 问 题 , MA D Q N 方法被


提出 , 通 过 与 网 络 环 境 交 互 来 实 现 任 何状 态 下 的 纳 什 均 衡 

3 3 3
. .


算 法流 程描述

算法 3 -

1 基于 MA D Q N 的 多 无 人 机 轨 迹 和 功 率 分 配 联 合 优化 算 法


1 :
随 机 初 始 化 多 无 人 机 追踪 网 络 分布

2 : 初 始 化 经验 回 放 内 存 A 、 Z)

和马

3 :
初 始 化三个 行 动 值 函 数 2 -

1 (
^ 1 丨

1 )

0 2 (
> ?

〇 !

2 |
6 >

2 )
和 2 〇 3


3 丨
6 >

3 )
, 其中 | 

为 随机权重

4 :
初始 化三个 行动 值 函 数 -


? |
或 )



4 )

其 中 权重 碑 =
6 >



巧和色



5 :  fo r  e
p i s o de

1 , 
M  do

6 :  在 特 定 地 理 区 域 内 随 机 初 始 化 所 有 无 人机 的 位 置 坐 标

7 :  fo r  ep o c h n 

 1

N t
do

8 :
在状态 S [
n] , 每 架 无人机基 于 4 问 =






) 丨


+ < 选 择动作

9 :
 每 架 无人 机 几 个 给 的 行 为 4 [
?] , 选 择动 作 6 、
% 和 

执 行动作 叫 和 观 察 奖励 扣 更新下 状态 义

〇 ?]
1 0 : 、
% 3 ,
i?

] , [ 

1 1 : 储 存转 移 样本 [
?] ,
《 [
?] ,
S M 放入 A )


1 2 :
令

37



北 京 邮 电 大 学 工 学 硕 士 学 位论文


1 3 :  fo r UAV i

l , N do

1 4 :
从 马 、
化 和 !^ 中 随 机抽 取 小 批 量 转 移 样 本 

( ? ,
4 ,

^ ,
彳 )
和 (

尸  

1 5 :
令

g =
< 
+rn

x 0_ , 2
? , 毛 4 和 为W 丨 


+ r?


Q娜 3
? ,
4M >


1 6 : 对 ^ _
_

认 (
1 5


0 1

1 < 丨
沒 1 /
) )

>^
_

2 2 ,


1 ?



2/ 丨
^ 2 ;
) )



( (


点 -

a 卜 ,


3 批0 ,


利用 3 、
巧和A , 采 用 梯 度 下 降 的 方法 最 小 化 损




1 7  en d
: 

1 8 :
每 C 步更新相应 的 目 标网络 :
Q 、
0 , a(
^ , 2

 g



Q Q
_

ar
ge fi 
t  

1 9 : End f or

20 :  E nd  fo r

基于 MA D Q N 的 多 无 人 机 轨 迹和 功 率 分 配 联 合 优 化算 法 如 算 法 3

1 所示 

在 我 们 的 随 机 博 弈 模 型 中 每架 无 人 机 可 以 被 视 作 ,

个 D QN 智 能 体 除此之外 , 

为 了 减轻每个 智 能体 的 动 作 空 间 和 学 习 复杂 度 , 我 们 将每 架 无 人 机 的 三 个 动 作 

包括飞 行方 向 rl


?] , 飞 行距离 ^ /

?] 和 功 率选择 珂《 进 行拆 分 ]
, 为每个动 作 分


别创建 个 新 的 智 能 体进 行 学 习 这样 在 我们 的 M AD QN 模 型 中 我们 共有



, , ,

3 # 个智 能体 

除此之外 , 我们 每个 D QN 模型 主要 由 两部分组成 : ( 1 ) 两 个深 度 神 经 网 络


( D NN ) 和 ( 2 )
Q

学 习 决策 模 型 。
神经 网 络可 以解决高维动 作空 间 的 问 题 。 


过拟 合 函 数而 不是 Q 表来生成 Q 值 , 我们 可 以 得 到 相 似 的 状 态 和 输 出 动 作 。 

此 DNN 对 复 杂 特 征 的 提 取 有 很 好 的 效 果
, 。 同时 , D QN 有

个类似于 Q

l e aming

的更新 公式 , 可 以 最大 化 折 扣 长 期 回 报 ,
如 下 所示 


Q {s r
i 4 E R

?] =
n + ym Q [S n] ?]
4 3 26


[ \ [


) t
( )  [ ,
[ ( 



n ]


其中 7 为折扣 因 子并且满足 0 < ^ < 1 , 当 7 趋 于 零 时 无人 机 主 要 考 虑 即 时 奖

 ,

励 。
当 / 趋于 1 时 , 无人 机主 要考虑 未来 的 奖励 

在 我 们 的 机制 中 每架 无 人 机 的 动 作 由 飞 行 方 向 飞 行 距 离 和 功 率选 择组 成 , 、 

因此 , 在 我 们 的 设计 和 实 现 中 , 我 们 分 别 使 用 三个 相 同 的 D QN 模型 对它们 进行

38



第三 章 基于 M AD Q N 算 法 的 多 无 人机轨迹和 功 率分配 联合 优 化方 案 

训 练 。 它们可 以表示为三个行动 值函 数 -

七问 ,

么 (
& ? , 丨
爲 , ) 


么 。 相应的 目 标 网 络可 以表示 为 y 丨




和 在每个 d qn 模型 中 , 我们 使 用

个 两 层 的 全连 接 的 神 经

网络 第 层有 个神 经元 第 二层有 个 神经元 Re L U 用 作 激 活 函 数

。 30 , 20 。 

在 学 习 和 更 新 过程 中 我们 使用 经 验 回 放缓冲 区 来更 新 和 存 储 收集 的 环境样

 ,

本 。 经验 回 放缓冲 区 以 大小 D 初始化 。 在每个时 隙 , 观察到 的状态 、


动作 、 奖励


和下 个 状 态 被存 储 到 该 缓 冲 区 中 然 后 从 该 缓冲 区 中 随 机 抽 取 小 批状 态 序 列



来更新 D QN 网络 。 在 具 体 的 更新过程 中 , 我 们 使 用 梯 度 下 降 法 来 更新权重 参 数




化aa 经过 定 次 数 的 迭代 后 a 么 么 网 络 的 参数被复制 到


。 ,
, ,


网络 。 我们 使用 最优 网 络和 q 网 络 的 最小均方误差来


定 义损 失 函 数 。
两个损 失 函 数 4 ^ ,



4 ^^ 4 0


3 ,


都可 以 表示 为 




2¥ "
_

 2 ( ? 叫风 ,

) )
1  (

_

2 7)

乙 化 和 4 的 能够 以 相 同 的 方式被获取
( ) )


是 目 标网络 的值 , 可以

被 表示 为 


Q R ? + ^" 2 8)
^0

〇 6 3


sc t V
t ar ,  i  ( ) 

; ; | ; ,
( 


( )


和 能够 以 相 同 方式被获取 ,
化 , 能够 通过 三个损 失 函 数


化 )

4机 ,
) 人 化 利 用 梯度下 降来更新
( )
, 其可 以 被计算 


a , 

M =


a^ v A e (






, i
^ ) 

五 G S “ 沒 ▽ 2(  沒
_

. .

[  ( 

, 
1 ,  I  1 ,
) 
先 

J  1 /
)]

( 凡 能够 以 相 同 方式被获取



在 每个 时 隙 更 新 参 数 化 ,

2<

^ 后 行动 % ,


2,


% 都会停止 。
并 可根 据 贪 婪 算


法 进 行选 择 ,
即 在 概率 为 s 的 情 况 下 随 机探 索 动 作 ,
并 在 概率 1

s 为 的情况下使


用 神 经 网 络 决策获得下 个 动 作 贪 婪 算 法 可 以 鼓 励 中 继 无 人 机 进 行 探索 并 防 止


程序 陷 入 局 部 最优 值 

39



北京 邮 电大学工学硕士学位论文 

3 3 4
. .
算 法 具 体 训 练流 程

开■ 炼

计算 当 前 的 网 名 

络状态 




完成 回 合
 


丫 

重置 中 继 无 人

r §r


中 继 无 人 机 基于 定 的
縣 癖或 最大 Q酿
选 






 ] [

中 继无 人纖行 动


作得 到 麵和 下


个 态

 ]  [ 

得 到 转 移 ^ 包括 当 前 状

 ,

态 动作 麵 下 状 态
' 
 、 、

和 是 酸止 将斯 储在 经 
 ,

g金 中

〒 

 1 
 



  

从 经验 迪 中 随 机 取 样 b a c h 大

 t

小的 样 本 计算 当 前 网 络 下 的


实 际 Q M 开獅 炼 
 ,

图 3

2  MA D QN 训 练模块 图


40



第三章 基 于 M AD QN 算 法 的 多 无 人 机 轨 迹 和 功 率 分 配 联 合 优 化 方 案 

步骤 开 始 进入 MA D Q N 的 模 型 训 练 设置训 练 的 回 合数为 轮 


: , 5 00 ,

断是否完成 回合训 练 , 如果完成 , 则 模 型训 练完毕 , 如 果 没 有 完成 , 则 进入步骤




 
 

步骤二 :
随机重置每架无人机 的 位置状态 , 状态空间 能够被表示为


耶 ]

& [
?] ,

2 [
?] ,
. . .


以 [
w]

, c .

, [
n] 为 无 人机 的 水 平 位 置 坐 标 

步骤三 :
判 断 是否 完成每个 回 合 下 的 步 骤训 练 ,
步骤 训 练 值设置为 50 步 

如 果 完 成 则 进入 回 合 判 断 进 入 新 轮 的 学 习 如 果 没有完成 则 进入步骤 四

, , , , 

步骤 四 : 中 继 无 人 机 利 用 概 率超 参 数 e
p si l on 在 随机和 Q 策略 间 选择动 作 来


探索 环境 , 在探 索 环境 的 过程 与 环 境进行 数据 交 互 , 该数据 包括加 入 中 继后 整个


网 络 的 参数 , 如 每 条链 路 的 相 应 的 信 号 与 干 扰 加 噪 声 比 、 链 路速 率 及 链路 时 延 

动 作 的 选取 会在 飞 行方 向 飞 行 距 离 尤 < 0 尤^ 中 分 别 选 择 特 定



£ 0 3 60

必 [

; |

步长 , 根据 每 次 行 动 , 每架 无 人机 会 设 定 其 二 维 轨 迹 和 发 射 功 率 

步骤五 : 得 到 与 环 境交 互 的 参 数 后 , 通过 奖 励 公 式 得 到 相 应 的 奖 励 值 , 建立

状态转换 同 时 将得 到 的 转 移 样 本 包 括 当 前 状态 动作 奖励 下 状态和 是


, , 、 、 、

否 动 作 终 止 五种 状态储 存 在经验 池 中 

步骤六 判 断每架无人机 的 是 否完成 了 遍历 如 果 完 成 返 回 步骤三 否 则


: , , , 

进入 步 骤七 

步 骤七 当 经验 池 中 的 经 验 数量 大 于
: b at c h 的 大小 时 ( b at c h 我们 设置为 500 ) 

从经验池 中 随机取 出 b at c h 大 小 的 样本 , 计算并更新 当 前 网 络 的 的 Q 值 



步骤八 计算 当前 网 络状态 回 到步骤 如 果训 练完毕 输 出 训 练模型


: , , , 

3 4

仿 真结 果 与 分析

本 节 对 我 们 提 出 算法 的 仿 真 结 果 进 行 了 评 估 和 讨 论 在 仿 真 中 我们在 


。 ,

大 小 为 2 00 / m x 20 0 w 的 地 理 区 域 内 部 署 了  4 架 追踪无 人 机 和 4 个移动 用 户 。
其它


仿真参数如 表 3

1 所示 

4 



北京 邮 电 大学工学硕 士学位论 文


3 4
. . 1 仿 真场 景

表 仿 真参数表



 

参数
  描 述  值 | |

Pm ax

无 人 机 的 最 大 传 输 功 率 l OOdBm




^ 
1 MHz



追踪无人机个数 




0 
信道系数 

5 0dB


r 
折扣 因 子 
Q 9

 .

I 
学习率 
0 0000
. 

Pu \


惩罚 因子 1


20

Pu l

惩罚 因子 2 20

 
共识 系 数 0 95
. 

能 耗 系 数 0 . 05

3 4 2
. .
仿 真结 果 及 分析

图 3

3 显 示 了 不 同 算法下 的 平均 奖励 训 练结 果 。 我们可 以 看到 相 比于 , D QN

算法 , MA D QN 算法在 多 无人机场 景 下 相 比 于 每个无人机 只 考 虑 ,


自 己优化 自 己 

研 究无 人机之 间 的 关 系 以 提升 整体 效果具有 更 高 的 优 势 且算法本身 能 够 实现更



 ,

快的 收敛 。
除此之外 , 在 MA D Q N 算法 中 , 我们 分别对 比 了 采 用 功 率分配和 未采


用 功 率 分 配对 训 练奖励 的 影 响 可 以 观察到 功 率分配在 定 程度上具 有更 高 的


, ,

平均奖励 回 报 对提高 网络 的 效用 值有 定 的成效 验证 了 我们 方案 的 有 效性


, , 

50 0

D3 0 0

 I 

 L /

殳2 0 0

 
-  一









s  10 0






M A D Q Nw i th o u tp o w e ra l l ocat o n



 i

I 
M A D Q Nw i
th
p
o w e ra l l
oc a t o 

 i

l oo

I —

D Q N

0  1 0 0  2 0 0  3 0 0  40 0  5 0 0

n u m b e ro ft ra i ne p s o d e



 i

42



第三章 基于 MA D Q N 算法 的 多 无人 机轨迹 和 功 率 分配 联 合 优 化方 案 

图 3

3 不 同 算法下 的平均 奖励训 练 图



图 3

4 显示 了 我们 的 多 无人机 网 络在 不 同 算法和 不 同 测 试次数 下 的 共 识 收敛




时 延对 比 。 我们

共 测 试 了 2 0 次 , 可 以看到 , 当 我们 将效 用 函 数 , 也 就是能量


消 耗和 共 识 收敛 时 延 函 数 解耦 时 采用 功 率 分配 的 方 案 明 显 优于 没有采 用 功 率 分

 ,

配 的方案 , 可见 , 功率分配对共识收敛时延 的 提升是有效果 的 , 除此之外 



MA D Q N 算法相 比于 D QN 算法对 共 识 收 敛 时 延提升 上 也 具 有 更 好 的 性 能 



6 0



§

M A D Q Nw t h o u tp o w e ra oca t o n





i l l i

45

M A D Q Nw
^  i th
p
o w e ra l l oc at on

 i

c  D Q Nw i t h ou t
p
owe ra l l ocat o n

 i

40
S


: ^ / A/ v yVA


2  5 7 1 0 12 1 5 17 2 0

Te s t  n u m be 

图 3

4 不 同 算 法 下 的 共识 收敛 时 延对 比 图

图 3

5 显示 了 我们 的 多 无人机 网 络在不 同 算法和 不 同测试次数下 的 能量消 耗




对于对 比 图中 我们 共 测 试 了2 0 次 可 以 明 显看 出 相 比 于 随 机轨迹来说

。 , , , 

对 所有 追踪无人 机 进 行轨迹规划 都 能 显 著 减少 能 耗 , 因 为无人 机 的 飞 行 能耗远远



高 于 传输 能耗 。
另外 , 从 图 中 还可 以看 出 , 对于 D QN 和 MAD QN 算 法来说 , 


否 进 行 功 率 分配对 能 耗 的 影 响 是 微弱 的 ,
功 率 分配 更 多 是对共识 收敛时延 带来提


升 , 验证 了 我 们 前 期 的 猜想 。 但从整 体 效 果来看 , MA D Q N 算法相 比 于 D QN 


说 ,
能耗性 能上 也 带来 了 微弱 的 提升 

43



北京 邮 电 大 学工学硕 士 学 位论文 


2 8〇



 *
M N r^

 
 M A D Q N w i

th o u tp o w e ra l l o c at o n

 i

^

  D Q Nw hout owe ra oca on




t t
8 p
i l l

2 60
 Ra

ndo m  t r a e c t o r


g ;  j

a 

£ 2 4 0


2 2 。

2 0 0 ?

2  5 7 10 1 2  1 5 1 7 2 0

Te s t  n u m be 

图 3

5 不 同 算 法下 的 能 耗对 比 图

3 5
. 本章小结

在 本 章 中 我们 研 究 了 改 善 多 无人机之 间 信 息共识 收敛时延 以 及 多 无 人 机能


, 

效 的 第 二 种 策 略方案 在 该方案 中 我们提 出 了 种 基 于 多 智 能 体深 度 强 化 学 习




。 ,

算法 ( MA D Q N ) , 通 过 联 合 优 化 所有 追 踪 无 人 机 的 飞 行 轨 迹 及 其 传 输 功 率 分 配 来


改善 多 无人 机追踪 网 络 的 连通度 共识 性 能和 能 效 由 于 联合 优化 问 题 的 非 凸 性 、 。 

同 时 考虑 到 每架 无人 机 的 效用 是根据 网 络环 境和 其它 无人 机 的 行 为来确 定 的 , 


们 可 以 将该 问 题建模为 个 随机博弈 问 题 针对 多 无人机 的 离 散动 作 空 间 以 及 大


状态 空 间 导致 的 计算复杂度高 的 问 题 , 我们提 出 了利用 MA D QN 算法来 求解 该



问 题 的 最优策略 , 最 后 通过 仿 真 对 我 们 的 方 案进 行 了 验证 , 我们 的 算法与 其它 算


法相 比 ,
具有 明 显 的 优势 ,
有 效地减少 了 共 识 收敛 时延 和 网 络 的 能量消 耗 

44


第四章 多 无 人机 网 络 中 共识 收敛 时延 分 析
 

第 四 章 多 无 人 机 网 络 中 共 识收敢 时 延 分 析

本文提 出 了 针对 多 无人机追踪场 景 下 改善 网 络共识 收 敛时 延 和 无 人机系 统




能 耗 的 两 种 策 略方 案 分 别 包 括 引 入 架 中 继 无 人机和 对无人机 网 络进行功率 分


配 两种 方 案 能 改 善 共识策 略 的 收 敛 时 延 的 本质 原 因 都 是 改 变 了 无人 机 网 络 的 代



数连通度 ,
其 可 以 通 过 拉 普 拉斯矩 阵 的 第 二 最 小 特 征 值 来表 示 。 前者 引 入 中 继无


人 机 主 要 通 过增 加 和 删 除 边 来 改 变 网 络 拓 扑 结 构 进 步控 制 网 络 连通 度 后者


, 。

通过功 率分配来增 加 或减少 拓 扑 中 某 些边 的 权重 来 改变 网 络连通度 



本 章 详 细 介绍 了 影 响 多 无 人机 网 络信 息共识 收敛时 延 的 影 响 因 素 并且 详细

 ,

分 析 了 前 两 章 提 出 的 方 案 之 所 以 能 提 升 和 改 善 共 识 收敛 速 度 的 具 体 原 因 , 同 时进

行 了 仿真 , 验证 了 我们 相 应 的 分析 

4 1

共 识 收敛 时 延 的 影 响 因 素 分 析

本节我们 主要 分析影 响 共识 收敛时 延 的 主要 因 素 首先我们 引 入 些图论中




的 基 本概 念 , 其可 以方 便我们 对共识算法 的 分析 。
其 次我 们 介 绍 了 什 么 是 网 络 中

的 共 识 问 题 以 及什么 会影 响 共识 收 敛 时 延 , 最后 我们 给 出 了 仿真验证 

4 1
. . 1 图 论基 础

我 们 的 网 络 拓 扑 可 以 表示 为 个图 沟 其中 j 表示为该


= =
 , , 

图 的 邻 接矩 阵 , 并且邻接元素满 足 F 

 表示 网 络 中 所有 的节 点


组成 的 集合 , 五 为 每 对节 点 之 间 边 的 集合 ,
节 点 的 邻 居节 点 集合 / , 可 以 表示 为



一 


, 其中 [
30



 



V J ,
 (
4 -





0 ,  o th e rs

节 点 v 的入度和 出 度 可 以 分别 被表示为



deg
, ” (


)

 J

X




4 2)




de g v
5>  4 3
= .

ow ( ) ( 








45


北 京 邮 电 大 学 工 学 硕 士 学 位论 文 


图 G 的 对 角 矩 阵 可 以 表示 为 A 

 [

j , 其 中 对于 所有 的 / * _ / 都有 ? =
0 , 


且\ =
<1
呢 。 ?( 〇^
。 因此 , 基 于 邻接 矩 阵 的 对 角 矩 阵 , 图 < ^ 的 拉普拉斯矩 阵 _ /: 可以

被 定义为 

L 

 L

G) 

 A -

A (
4 4)


通 过 定 义 可 推得 拉 普 拉 斯 矩 阵 的 每 行 总 和 为 〇 因 此 对 于 拉普拉斯 图 来 说 , , 

总 是有 个值为 的特征值 同时 我 们 对 拉普 拉斯 矩 阵 的 特 征 值 按 照 大 小 来 排


0 。 ,

序为 , ; 2 2
 4 , 其 中 对 于 图 连通 的 充 分 必 要 条件 必 须 满 足
, ;1

乏 0 

这个 倒 数第 二 大 的 特征 值 叫 做连通性特征值 , 也 被 叫 做 费 德勒特征 值 ( F i e d l er

e i g e nv a l u e )
[ 3 1

, 显然对 于连通 图 来说 , 满足 岑 =
0 ,
4 
2 0 , 且 aw A
r ^^ i V

l 

4 . 1 . 2 网 络 中 的 共识 问 題

共 识 问 题 在 计 算 机科 学 中 有 着 悠 久 的 历 史 是 分 布 式计 算 领 域 的 基 础 然 而 , 。 

在 通信 网 络 角 度 是指在 动态 网 络 中 根据 所有 代 理 的 状态 就 定 数量 的 利 益


, , ,

达成 致 换句话说 共识是 种 交互规则 用 于 指 定代理与 其 网 络上 所有邻 居




一 一

, , ,

之 间 的信 息交换 [
42]


因此 , 离 散 时 间 的 共识算法可 以 被 表示 为 



(
? + 1
)

 x

 (


+ su t
 (

)  (
4 5)


其中 表示在 时刻 的节 点 值 / , s 为共 识 步 长 , 且满足 s > 0 , 为 时刻节



 f

点 的 输 入 控 制 向 量 主 要 包 括邻 居 节 点 的 ,

些相对信 息 。

般 通 信 网 络 的 链路 中 

通 常 存 在 通信 时 延 , 因 此对于存在通信 时延 的 情 况 , 我们 的 输 入 控 制 向 量 可 以 表


示为 


M )

 Ha v[

j(
?

 ^)  

 (
^ 

 ) ] 

 ^ (? 

 T
)  (
4 6)


其 中 & 为 无 人 机 和 无 人机 之 间 的 共 识 权 重 系 数
, /
_ /
, Z 为图 G 的 拉普拉 斯矩 阵 

因 此 离散动态 时 间 共 识 算法 的 表达式 如 下 所示
, 


/ + 1
)

 x .


 (

) 

 y
en





j(


y )

 x

 (
t

 T
y )]

 (
4 7)


当  时 后 文 我们 会 专 门 定 义
^ ( ) , 所有 无人 机 的 值 将 逐 渐 达 成 共 识 

即 所 有 状态 收 敛 至 同 个值



雙 ^ 〇
, =
4 8)_

名 ( ) ! ( ( 

表示 网 络 的 共识 收敛 时延 。
如 果存在通信 时延 , 则 网络 中 的任意节点将


会 对 来 自 其他节 点 的 延 迟 信 息 进 行 融 合 , 这 将给 节 点 的 值 带 来 误 差 。
除此之 外 

46



第四章 多 无 人机 网 络 中 共识 收敛 时 延 分 析


如 果 时 间 延迟 足够 大 , 上述 方程 更 有 可 能 不 收敛 。 通过 [
35

的 分析 和 证 明 , 我们


可 以 得 到 网 络 中 容许 时 延 的 最 大 上 界 以 满 足方程 收敛条 件 

< ^
r  4 9)
— -―

( 

 4^


_ ( 

其中 表示 多 无人机 网 络 图 G 最 大 的 出 度个数 , 可 以 被计算 



G、
d臟
兔a  4


1 0)
{ f 

4 1 3
. .
共 识算 法 的 收敛性分析 及 性 能 仿真

前 小节 中 我们 定 义 了 什 么 叫 共 识 问 题 这 小 节我们 将 具 体 分析共 识 问


一 一

, ,

题 的 收敛性 

首先我们先 分析稳定性 , 我们 利 用 Ly ap un o v 直接法来 分 析 稳 定 性 , 选取




Ly ap un o v C a nd i d at e  




V ( x) =
x Lx =

X x
 4
- -
_
_

 1 1
( 




( 7 )

jes


i

由于 Z 的 特 征 值 都 大于 等 于 0 , 所有我 们 有 S 0
 , 因 此我们 可知 

该 系 统是有 界 的 , 但 是 我 们 并 不 知 道 会 收敛 到 哪 里 , 但是 La S al l e 不变集原 理告


诉我们 , 收 敛 到 不 变集 , 系 统 的 不 变集 也 就 是 F (
x) 

 0 的点 , 那么 当 

推得 , 对于边 y e s 满足 如 果 图 是 连通 的 , 这就意 味着所有节 点 满足



&

 . . . 

 X
j y

即 系 统达到共 识 

在 图 连通 的 状态 下 , 我 们 可知 , 系 统 终 将会 收 敛 , 且 达到 共 识 。 但是从 [
3 6]

的 分析和 证 明 可知 , 即 使 系 统满 足 可 收 敛 的 条件 , 但 是 不 同 的 网 络 拓扑 结 构 , 

图结构 , 会 导 致 共 识 算 法 的 收敛 速 度 也 不 同 。 这个 收 敛 速 度 ,
我们 也 叫 做 共 识 收


敛时延 , 其 可 以 被 定义为 


T 4 2)




con  ( 

K +




_

( i ) !
( )

其中 9 和 4 为正常数 ,
& £

〇 ,


, A r





oo

。 由 该式子可 以看 出 ,
影 响 共识 收敛


时 延 的 主要 因 素 为 ; 叫 做连通性特 征 值 , 当毛 越大 时 , 越小 , 

毛 越小 时 , 越大 。 因此 , 为 了 验证该 结 论 , 我 们 仿 真 了 不 同 连通度 的 图 

47


北 京 邮 电大学 工学 硕士学 位论文
 

N e tw o r k  t o
po ogy


一 

 # U AV 2
 

?_ r 、



 

I I
, U AV 1


 y

 i

I /

 .



| 
H U AV 5

? U AV 4
 










? U AV 6


 稀疏
’ ’

图 4 -

1 

D i stru b i t e dC o n s e n s u s


    

1 .
2 1 1

U AV 1

 U AV 2 



1 .

^

\  

U AV 3


U 

U AV 4

U AV S


U AV 6


云 
 0 9   X、. 
 


s
* ■
— 







c u  ,

巨 0 .
8

/ 
1  /

 /

? / 7



0 .

C 

亡0 6  /



0 5
-  

0 4
- 

 1  1   1 

0 .
3

0  2 4 6 8 1 

t i
m e( s 

“ ”

图 4 2 -

 稀疏 图 的 共识 收敛 时延

48



第四章 多 无人机 网 络 中 共识收敛时延 分析


N e w o rk o p o o g y



t l

9 U AV 6
 

/\

:

 1



//



? U AV 3
/ ,   

‘ 一 -







? U AV 4
 

/  \ 



jx

 ? U AV 2
 





? U AV
 

“ ”
图 4 -

3  稠密 

e dC o n s e n s u s

D i st ru b i
t 

1 ^

 U AV 1

 U AV 2




 U AV 3 

^

U AV 4


U AV 5


公  U AV 6 


0 .


   


 /
. 2
 / 







/ /

£ 

c _

 i 


d 







0 .
6t

0 5

 

4
 '
 1  1
 

0 .

0  2 4 6 8 1 

t i
m e( s 

“ ”

图 4 -

4  稠密 图 的 共识收敛时延

“ ” “ ”
从以上四张图可以看 出 ,
稠密 图相 比于 稀疏 来说 ,
共识 收敛时延更


“ ”
小 , 直 观来看 ,
稠密 图 的边更多 , 边越 多 , ; 越大 , 从公式角 度也可 以 分


析 , ,
因此可 以看 出 牟 网 络 连通度可 以 影 响 共识 收敛


时延 , 越大 ,
共识收敛时延越小 

49



北 京 邮 电 大学 工 学 硕士 学 位论文 

4 2 .
改变 网 络 连通度 的 方 案分 析

通过上 节 的 分析 我们 可知 影 响 共 识 收敛时延 的 主要 因 素来 自 于

, 

也 叫 网 络 连通度 。
本节我们 主 要针对第二 章 、 第 三 章 提 出 的 方案 , 具 体 分析 这 些

方案 是 如 何 改 变 网 络连 通 度 进 而 提 升 共 识 收敛 时 延 的 

4 2 . . 1 增减拓扑边 一

中 紙人机 總方案

在 多 无人机 网 络 中 , 网 络连 通度 的 大 小 主 要 依赖 于 网 络拓 扑 结 构 的 变化 , 


多 无 人机场 景 中 这 种 改 变 网 络拓 扑 的 方法 也 叫 编 队 重 构 然而 在 追踪 网 络 中 , , 。 

拓 扑 的结构 的 变化主 要 却 决于 追踪用 户 的 位置变化 这种 变化是 随 机且 几乎不 可



 ,

规划 的 , 因 此编 队 重 构 不 再 适 用 

但 是 我 们 也 可 以 通 过 增 加 或 删 除 网 络 边 来控 制 。 然而 , 增 加 和 删 除边 以 获得


期望 的 代数连通度是 个 难问题 因此 在 我 们 的 方案 中 通过加 入 


一 一 一

NP 。 , ,

新 的 中 继无人机 , 可 以 有 效 改变 网 络 的 拓 扑结 构 ,
实 现增 加 和 删 除 边 的 目 的 。 


们 的优化 问 题可 以 定义为 

ma x /i

 (



) )  (
4 -

1 3)

2 2
s t cl 〇 11

11
> D V i e N i ^

. . :
| |  ;
[ ] [ ] | |
m n i
,  ,  j ,  

其中 C=  [
c f

, 表 示 所 有 无 人 机 的 位置 向 量 。 Z 为 追踪 网 络 的 拉普 拉 斯 矩 阵 。
限制


条件 表示 在 飞 行过 程 中 为 了 避免所有无人机之 间 可能 出 现 的 飞 行冲 撞 


, , ,

人 机 的 冲 撞避 免 限 制 , 其 中 I 为 任 意两架 无人机之 间 的 最小 间 隔 距 离 

显然 , 由 于 无 人 机 之 间 距 离 和 拉普 拉 斯矩 阵 之 间 的 非线 性 依 赖 性 , 上述 问 题


是 个 非 线 性优化 问 题 为 了 便于 分析 将通过 以 下操 作转换 问 题

( 4 -

1 3 ) 。 ,

33



命題 1 : 考虑 m 维的子空间 g e F 由 向量 仏 £ 及' 丨



2 ,
. . .

/ ? 生成 

穿

[ 免而 矩 阵 M 有 以 下 的 性质 

对 于 所 有 非零 c e g , Z Mo O ,
当且仅 当

证明 : 首先对于 非零元素 c  e g 可 以写成 以下形式 



c 

 + a2 g 2  +   … + (
4 -

1 4)

其 中 为 实 数 且 不 等 于 0 , 也 可 以 写 成 c 

 2y , 其 中

_ y 

 [
a 1

a2 ,
. . .

am f , 所以 , 我们 可 以 得 到 构少 > 0 , 由于 


非零 向 量 进 步 可推得 0 M2 >



〇 

推论 1 : 对于拉普拉斯矩 阵 L , 相等于 其 中


£ 及 是单 位 正 交矩 阵 , 且满足 

50


第四章 多 无 人 机 网 络 中 共 识 收 敛 时 延 分析 


Uf =
0 ,  i



qJ qj

〇 ,  i 丰 j

 

证 明 : i: > 0 且L 1

 0 , 因 此 最 小 的 特 征 值 4 (


将始 终等 于 零 



r r
认 (Z ) S i V -

l , 可以证明 , 对于所有 非零 x e l , 其中 l


c e

l c= 〇



毛 (


2 0

相等于 c ie > 0 

因此 , 联系 命题 1 , 我 们 可 以 得 到 cY c > 0 相等于 ,
! S Yg 〉 。 , 其中 g 表示

生 成子 空 间 x e f 的 向 量矩 阵 , 因 此 我们 的 问 题 ( 4 -

1 3 ) 可 以 转换为 

m ax /l





))  (
4 -

1 6)

2 2

s t . . cl :
 | | 

l [
n] 

 C [
n ] | |
>  Dm n i
, 
V i
,  j
6  N ,
i ^  



Q L (c Q )
> 0

解 决 这 种 非线 性 优 化 问 题 , 我们 可 以 利 用 深度强化学 习 , 具 体解 决方 案描 述

在第 二 章 

4 2 2
. .
增减麟 权重 一

功率 分配方 案


种 情况 , 在 信道严重恶化 的 情 况 下 , 由 于距离 的 限制 , 可 以 允许无人机



节 点 的 传 输功 率 发 生 变 化 , 以 提 高通 信链路 的 质 量 , 从而增加 网络拓 扑 中 某些边



的 权重 , 也 就 是 我们 所 说 的 共 识 权 重 系 数 , 其 具 体 体 现 为 无 人 机 网 络 中 每 条 链路

的 大小 , 这 是 我 们 改 变 网 络连 通 度 的 另

个角 度 。 通常 , 在总 功 率开 销 固

定 或 开 销 最 小 化 的 情 况 下 为 不 同 无 人 机 网 络 链路分 配 不 同 的 功 率 也 是 个重要


的优化 问 题 

因此 上述功 率优 化 问 题可 转化为 个 非 线 性规 划 问 题




max /l
2 (

)  (
4 -

1 7)

 /   \

NN

s t . . cl :  VV l O log  —

<



dB )

tf n  {
P i
j 

Q L (p) Q > 0

其中 i 表示权重 为 w 的 拉普 拉 斯矩 阵 , 每 条 边 的 权 重 可 表示为 % 。
2 表示生成

O 表 示在 总 功 率 V 被 分 配 后 获 得拉 普拉 斯 矩 阵

子空 间 x e f 的 向 量矩 阵 , i )


表示 完 成 功 率 分 配 后 的 共 识 权 重 。 解决这种 非线 性优化 问 题 , 我们 依 旧 可 以利 用

深度强化学 习 , 具 体 解 决方案 描述在第 三章 



5 


北 京 邮 电 大 学 工 学 硕 士 学 位论文
 

4 3

仿 真 结 果 及 性 能评估

本节我们主要对上 节 所 提 出 的 两 个方案 分 别 进 行 仿 真 评估 和 讨 论 在 仿 真


中 我们 在 个 大 小 为 200 w x 200w 的 地 理 区 域 内 部 署 了 架追踪无人 机 其他





4 。

仿 真 参数 如 表 4 -

1 所示 

表 仿真 参数表






参 数 描 述
  值 |

Pm ax

无人机 的 最大 传输功 率 
l OQdB m




M 
1 MHz



追踪无 人机个 数 



 ^ 
信道系数 

5 0dB


 ̄ 

D mm  防 冲 撞 距 离 20m 

D i str i b u t e dC o n s e n s u s

L 5 °

|
L25  —  —

 U AV l


|
L O O U AV 2



- 

%  /  U AV 3


/
0 75

 U AV 4


0  2 5  50  7 5  1 0 0  12 5  1 5 0  1 7 5  2 0 0

t i m e m s
( 

D i s t r b u t e d  C o n s e n s u s  w t h  re
i i l a y  U AV

1 5〇

.


E "

 U AV l

|    

 U AV 2

 U AV 3

1 . 0 0


丟  I  

 UA V 4

° 75



 re a  U AV
 
- 

2 y

0  2 5  50  7 5  1 0 0  1 2 5  1 5 0  1 7 5  2 0 0

t i m e m
( s 

图 4 -

5 方案 一

收敛 时 延对 比 图

52


第四章 多 无人机 网 络 中 共识收敛时延分析 


c D i st r i b u t e dC o n s e n s u s


0 

1 50


g

U AV 1

  

〇L 2 5 - 

C —

 U AV 2

u l  —

U AV 3

U /


0 75

 / … …

U AV 4

U 

I     I

I I 

b  0 2 0 40 6 0 8 0 10 0 12 0

t i m e m s ( 

c D i st r i b u t e dC o n s e n s u sw i th
p o w e ra l l ocat o n

 i

1 5 0


^ 

〇 1 2 5



 U AV 1 


E / U AV 2




c
1 
L0°
 /

 - - -

 U AV 3




07 5 i


 U AV 4


u
」 

b O 2 0 40 6 0 8 0 1 0 0 1 2 0

t i m e m s ( 

图 4 6 -

方 案 二收敛 时延对 比 图

图 和图 分 别 为 我 们 所提方 案 和 方 案二 的 共识 收敛 时 延对 比 图 


4 -

5 4 6 -

图 中可以看 , 当 我 们 以 网 络 连通 度 为 优 化 目 标 ,
最大化 夾 (
Z) , 并 分别 从增 减拓

扑 边 以 及 增 减 链路权 重 的 角 度 来优 化 我 们 的 无人 机 网 络部 署 都 可 以 减少 共 识 收

 ,

敛时延 ,
仿 真 结 果 验证 了 我 们 的 理 论 分 析 

4 4
. 本章小结

本 章 我 们 主 要针对 改变 网 络连通 度可 以 减少 共识 收敛时 延 的 具 体 原 因 详细



 ,

分析 了 影 响 多 无人机 网 络 信 息共识 收敛 时 延 的 影 响 因 素 网 络 连通度 并通过方




案验证 了 我 们 的 分析 其 次我 们还详 细 分析 了 前两 章 提 出 的 方案之所 以 能提升 和


。 

改善共 识 收敛速度 的 具 体 原 因 ,
同 时进行 了 仿真 , 验证 了 我 们 的 分 析及方案 的 有


效性 

53



北 京 邮 电 大 学 工 学 硕士 学 位 论 文 

54


第五章 总结与展望
 

第五章 总结与 展望

5 1

研 究 内 容 总结

近年来 , 无 人机被部署 在各种 各样 的 应用 中 , 从搜 索 救援 到 野 火监 测 , 从移




动 物体 的 追踪 到地理映射等 标 追 踪 是 无 人 机 的 关键 应 用 之 其 主 要任 务 是



目 ,

通 过将 目 标 保 持 在 其 视野 内 来跟 踪 地 面 上 的 移 动 目 标 。 与 单无人机相 比 , 团 队式


的 无 人机 在 协 作 任 务 方 面 具 有 显 著 优 势 多 无 人机 协 同 追 踪 , 目 前 受到 了 广泛 的 关


注 。 在 追 踪场 景 中 , 为 了 实 现对 目 标精准 的 追踪 , 有 效 的 分布 式估计 方法 , 也就


是 网 络 共 识 策 略越 来 越 受 到 重 视 。 然而 , 在 多 无 人机追 踪 网 络 中 , 追踪无人机 的

移动 性会严重影响 网 络 的 性能 , 导 致信 道环境复 杂 多 变 , 网 络拓 扑会 随时发生 改




变 些 现 有 的 通 信 链路 也 会 发 生 频繁 地 中 断 因此 无人 机之 间 的 网 络连通度


, , ,

很容 易 受到影 响 , 导 致通信 质 量下 降 , 严 重影 响 共识 策 略 的 准 确 性和 收敛时 延 



以 至 于 无 法 满 足追 踪 要 求 。 通过分 析 , 我们 可知 , 共识 收敛时延 与 网 络连通 度密




切相关 。
除此之外 , 无 人 机 在追 踪 和 共 识 的 过 程 中 , 能 效 优化 对 于 由 电 池 供 电 的

无人机来说 也是 个 关键 问 题 和 性 能 指 标 因此 针对 以 上指 标 本文主要提 出


。 , ,

了 改 善 追踪 网 络 连 通 度 、 提 升 多 无 人 机 追 踪 网 络 共 识 收 敛 时 延 及 网 络 能 效 的 两种


方案 。 我 们 的 主要 研 究工 作 和 成 果可 以 总 结 如 下 

首先 我们 以 增 加 网 络 拓 扑 边 的 方式建立 了 个新 的 网 络框架 将移动 中 继




, ,

无 人 机 部 署 到 多 无 人 机追 踪 网 络 中 , 以 适应通信 环境 。 通 过 中 继 无 人机 的 轨 迹 设


计 为共 识 算法 性 能 的 改 进 提 供 了 新 的 契 机 基于 该框架 本文分别 提 出 了 


, 。 ,

基于 D QN 的 中 继 无 人 机 部 署 算 法 与 基 于 D Q N 的 中 继 无 人 机 轨 迹 规划 算 法 ,



别 优 化 了 网 络 的 共 识 收 敛 时 延 能 效 以 及 追 踪 网 络 的 共 识 成功 概 率 及 网 络 中 断 概



率 。
仿真结 果表 明 我们 基于 D QN 的 算法相 比 于 Q

l e ar ni n
g 算法 、 随 机 位置 部署


算 法 来 说 都 具 有 更好 的 性 能 , 且 利 用 我 们 的 算 法 寻 找 最佳 部署 位 置 时 , 可以用更


少 的 步 骤 获 得更 高 的 回 报 

其 次 我 们 以 多 无 人 机追 踪 网 络 为 基 本 部 署 框架 提 出 了 种 基于 M AD Q N


, ,

算 法 的 多 无 人 机 轨 迹 和 功 率 分 配 联 合 优 化 方案 以 优 化 网 络 的 共 识 收敛 时 延 和 能

 ,

效 我们 对 多 无人 机 追 踪 网 络 中 的 共 识 收 敛 时 延 和 能 耗 问 题进 行 了 效 用 函 数 的 合



并 , 并利 用 MA D Q N 算法来求解 该 问 题 的 最优策 略 , 通 过 仿 真 对 我们 的 方 案 进


行 了 验证 , 与 其 它 优 化 方法相 比 , 我 们 的 方案具 有 明 显 的 优 势 , 有 效 地改变 了 网

络 的 拓 扑权重 , 同时 , 所 提 出 的 方案 确 实 可 以 有 效 地 减 少 共 识 收敛 时 延 和 网 络 的

能 量消 耗 

55


北京 邮 电大学 工 学硕士 学 位论文 


最后 , 我 们 基 于 前 两个方案 提 升共 识 时 延 的 具 体 原 因 , 利 用 图 论详细分析 了

影 响 多 无 人机 网 络信 息 共识 收敛 时 延 的 影 响 因 素 一

网 络 连通 度 通 过 对 网 络 拉 普

 ,

拉斯矩 阵 的 第 二最 小 特征值进行仿真 , 网 络 连通 度 确 实 可 以 影 响 共 识 收 敛 时 延 

且第 二最 小 特征 值越大 , 共识 收敛 时 延越小 。
最后 ,
从 前 两 个 方案 的 优 化 角 度 建


模 、 建 立优 化 问 题 , 仿 真 结 果验证 了 我们 相 应 的 分 析 , 从 原 理 解 释 了 我们 的 方 案


确 实 可 以 减 少 共 识 收敛 时 延 

综上 所述 , 本 文 主 要 考 虑 在 多 无 人 机 追 踪场 景 下 , 为 了 实现精准追踪 、 快速


共识 , 针对 改 善 追 踪 网 络 的 共 识 收 敛 时 延 及 能 效 问 题 进 行 了 研 究 。 通过对 多 无 人


机追踪 网 络进 行 系 统 建模 分 别 以增 减 网 络拓 扑 边和 增 减 网 络拓 扑 权重两 种 方式 , 

提 出 了 优化 共识 收敛时 延和 能 效 的 两 种 方案 此 外 , , 还具体分析 了 影响 共识 收敛


时延 的 具体原 因 , 并给 出 了 相 应 的仿真验证 

S 2
. 后续工 作 展 望

无人机 的 多 种 应用 包括 目 标追踪 , 然而 , 在 复 杂 的 追 踪任务背 景下 , 单架 无




人 机 的 能 力 往 往 很有 限 , 无法 满 足 精 确 、 连 续追 踪 目 标 的 要求 , 因此 , 本文主 要


聚 焦 多 无人 机 协 作 的 追踪 场 景 并对 追踪 问 题 中 的 个重要 问 题 也就是共识 策


, ,

略进 行 了 研 究 , 但是 由 于时 间 有 限 , 未 能对 该 问 题 进行 更 深 入 的 研 究 , 现将该 问

题的进 步研宄工作总结如 下




) 考 虑 多 无 人 机之 间 的 任 务 分配


前 本 文 虽 然 考 虑 了 多 无人 机 的 追 踪 但是仅仅 聚焦在 追 的情况 也就


一 一

目 , ,

是 架无人机追踪 个目标 但 随着追踪 目 标 的 增 多 追踪 环 境变 复 杂 追


一 一 一 

, 、 ,

也 许存 在 资 源 利 用 效 率 低 的 问 题 因此 未 来 我 们 可 以 考虑 追多 或多追多 的


, , ,

场 景 在 这种 情况下 个 有 效 的 追踪 任 务 分 配 是 实 现 多 无 人 机 精准 追 踪 的 关键

。 , 

在 分布式 的控制 架构 下 , 将 更 加 依 赖 于 无人 机 之 间 可 靠 的 信 息 和 数据 交换 ,
以及


实 时 动 态 的 策 略 变 化 同 时 有 效 的 路径 规划 也 是 实 现任务 分配 的 个重要研 宄子


课题 

2) 考 虑 多 无人 机 对 追踪 目 标 的 精 准 定 位


本文对追踪 目 标 信 息 的 定 位 来 源 于 地 面 中 央控 制 中 心 的 信 息 传 输 , 然而 

在 实 时 动 态 的 追 踪场 景 中 考虑 无人机之 间 独立完成 标 的 定位 定 程度上可




, 目 ,

以省去 些 不 必 要 的 信 息 传输 减少 通信 时 延 前 几 种 定 位 方法 中 多向定


, 。
目 , ,

位对 于 精 确 确 定 用 户 目 标 位置非 常 重要 , 对于 这种 方法 , 至 少 需 要 对节 点 与 三个


不 同 的 无人 机 定 位置之 间 的 距离 进 行 三 次估 计 。 距 离 估计通 常 使 用 基 于 时 间 或


( 接收信号强度 )
_

基 于 接 收信 号 强度 ( RS S ) 的 技 术 来完 成 。 同时 , 利 用 无 人机


56


第五章 总 结与 展 望
 

定位 , 因 为 其在更 高 的 高度 , 阴 影 较少 , 且 满 足视 距 通 信 , 因 此可 能会产生更 高


的 RS S 分辨率 

3) 考虑 目 标预 测 及 信 息 补 偿 估 计 算 法


本文 在考虑 共识 策 略 的 时 候 , 只 考 虑 了 如 何 通 过 改 变 网 络 连 通 度来 提 升共 识


的 收敛时 延 , 进而 减 少 收 敛 时 延 所 带 来 的 共 识 误 差 , 然而 , 通信 链路时 延 所带来


的 共 识 误 差 并 没有 考 虑 , 因此 , 我 们 可 以 考 虑 用 机器 学 习 的 方 法来对 追 踪 目 标的

移 动 轨 迹 进 行 预 测 也 可 以 在 每 架 无 人 机 上 使 用 滤 波 器 预 测 来 在 其余 无 人 机 的 通
, 

信延迟信 息 , 通过共识算法 与 机器 学 习 及 滤波算法相 结合 , 得 到 通信 时 延 信 息 补




偿 的 估计算法 , 进而 实现对 目 标 更精 准 的 估 计 

57



北 京 邮 电 大 学工 学 硕士 学 位论文 

58


参考 文 献 


转 文献



]  S on g 
Y X ,

 Q ,  X i n g  X  e t  a l  M u lt i ,

U AV  c o o p e r a ti v e  m ult i -

tar
g e t  a l l o c at i on  m e t ho d  b a s e d  o n

d i f fe r e n t i a l i t h m [ C ] // 2 0 2 0 3 9 t h
ev o l u t i on a r y  a l g o r   C h n e s e C o nt r o C o n fe r en c e
i  l 
 (
C C C) .  I EE E , 
2 02 0 

1 65 5 -

1 6 60 


2] L i u  X  L i u  Y  C h e n  Y  R e n fo r c e m e n t  l e a r n i n g  i n  mu
, ,
. i l ti
ple

U AV  n e t w o r l cs :  D e p oy m e n t  a n d

 l

m ov e m e nt d e s i gn [ J]  . I E E E Tr a n s a c t  i o n s  on  Veh i cu l ar  Te c h n o l o gy , 
20 1 9 ,
68(8) : 8 0 3 6 8 04 9 -



3 ] Ze -
l i n gC ,  Q i  W Ye , 

q ng 
Y  R e s e a r c h  o n  o p t m z at
i i o n  m e t h o d  o f mu
. i i  l ti

UAV  c o ll ab o r at i v e  t a s k

p l a n n i n g [ C ] // 2 0 1 8  I EE E  C S AA G u  i d an c e , 
N av i
g at i on  a nd  C o n t r o l  C o n fe r e n c e  ( C G N CC ) . I EE E 

20 1 8 1 :

6 


4] L i B Fe ,
i Z  Zh an g Y 


.  UAV C om m u n  i c at i on s  fo r  5 G  a n d  B e
y ond :  R e c e nt A d v a n c e s  a n d  F ut u r e

Tr e n d s [


. I E EE  Int er
n et  o f  Th ngs i  J ou r
n al ,  2 0 1 9 224 : 1

22 63 


5] Du tt a  R , 
S un  L P a ck D ,
 .  A  d e c e nt r a l z e d i  fo r m at i o n a n d   n e t w o rk c o n n e c t i v i t y 

t r ac k i ng 
c on t r o l l er  for

m u l t i p l e  u n m a n n e d  sy s t e m s [ J ] . I EEE Tr a n s ac t  i o n s  on  C o nt r o l  S y s t e m s  Te c hn o l o g y , 
20 1 7 , 2 6(6) 

22 0 6 2 2 -

1 3 


6]  S o ng 
Y X Q X , 

 , 
i ng 
X , 
et  al .  UAV  c o o p e r at i ve  m u l t i

t a rg e t a l l o c at i o n m e t h o d  b a s e d  o n  d i fe re n t i a l
 

C on fer e n c e ( C C C ) E EEE
e v o lut i o n ar y  a l
g o r it h m [ C 2 0 2 0 3 9 th Ch nese C on ro l 20 2 0 65 5 660

//   i  t  .  : 1 1 

]  , 


7]  Cu i Y  Re n ,
J
, 
D u W  et 

 al .  U AV  tar
g et  tr ac ki ng  a l g or i tla m  b a s e d  o n  t a s k  a l l o c at i o n  c o n s e n s u s f J ] 

Jo urn a l  o f S 
yste m s  En g i n e e r i ng  a n d  E l e c t ro n i c s , 
20 1 6 ,
2 7 (6 ) : 1 207 -

1 2 1 8 


8]  Yu  Z , 
Wa ng Z  G u a r a n 
. te e d  c o s t  c o n s e n s u s  fo r  mu l t
i p
l e  g en e r a l  d y n a m i c  s y s t em s  w i t h  s w i t c h i n g

t op o l o g i e s f J] .  I E EE A c c e s s 
, 
20 1 9 , 
7 : 3 70 8 8

3 70 9 9 


9] J i an  H  R on gha o  Z  H

. i er a r c h i c a l  C o n s e n s u s  P r o b l e m  v i a  G rou p  I n fo r m at i o n  Ex c h a n g e [ J ] . I E EE

Tr a n s a c t i on s  o n  Cy b er
n et i cs , 
20 1 8 ,
49 23 5 5 :

23 6 1 


1 0 ]  Sutt o n  R  S ,
B a Rt o A G R e   
.  i n fo rc e m e nt  n n g A n I nt r o d u c t
L e ar i :   i o n [ J] .  I EE E Tra n s a c t  i on s on   N eu r a 

N et w o k s r
, 1 99 8 , 9 (5) : 1 054 


1 1
] 
L u o n g  N  C  H o a n g  D  T  G on g  S  e t  a , ? 9
l .  A pp l i c at i on s  o f  d e e p  r e n for c e m e n t  l e a r
n ingin

 i

c o mmu n i c at i o n s  a n d n et w o r k n g  i :  A  svirv e
y [ J] . I E EE C omm u n  i c a ti o n s  S u r v ey s  &  Tut o r i als , 
20 1 9 

2 1

4) : 3 1 33

3 1 74 


1 2 ]  C hi  H L C h e n Z Ta n g

, 

,  
J,  et a l  .  En e rgy E f
ic -
i e nt  U AV C o nt ro  l fo r  E fe c t i ve  an d  Fa i r  C o mm u n i c at i on

C ov e r a g e :  A  D e e p  R e n fo r c e m e nt  L e a r
n i i n g  A p pr o a c h [ J ]  I E EE  J ou r n a l  on  S e l e c t e d  A re a s  i n


C om m un i c at i o n s , 
20 1 8 , 3 6 (9

: 205 9 20 70 -




1 3
] 
L uX i
,  L i u  Y  C h e n  Y  Re n fo r c e m a i t  l e a r n n g  i n  m u l t i p l e

. i i

UAV  n e t w o rk s  D ep o y m e n t  a nd

 : l

m o v e m e nt d e s g n [ J ]  i . I EEE Tr a n s a c t  i o ns  o n  Ve h i cu l ar  Te chn o l ogy , 


20 1 9 , 
6 8 (8) : 8 03 6 -
8 04 9 

59



北 京 邮 电大 学工学 硕士学位论文 

4]Ze ng  C  Q  W  Ye  Y  R e s e a r ch  on  o p t m i zat i o n m e t h o d  o f  UAV  c o l l a b o r at iv e  t a s k




1 li i . i
[ , 5

p l a n n i n g [ C ] //2 0 1 8  I EEE  C S AA Gu  i danc e , 


N av i
g at i on  a n d  C on t ro l  C o n fe r e n c e  ( C GN C C ) . I EEE 

20 1 8 1 :

6 

5 ] S in
g h  S  K  A g r aw a l  S i n g h  e t  a l  O n  UAV  s e l e c t i o n  a n d  p o s i t i o n b a s e d  t h r o ug h p ut

1 
 .

[ j

m a x i m zat i o n i i n mu l t i 

UAV  re l a
y ng n et w o i ks [ J]


. I EEE A c ce s s 
, 
20 20 , 
8  1 44 0 3 9

1 44 0 5 0 


1 6 ]  Liu  X ,  L i u  Y  C he n  Y  R e n fo r c e m ent 

. i l e ar
n i ng  i n  m u l t i p le

UAV  n e t w o rk s :  D e p l oy m e n t  a n d

m o v e m en t d e s i g n [ J ]  .  I EEE Tr a n s a c t  i o n s  on  Ve h i c u l a r  Te c h n o l o g y,  2 0 1 9 , 
6 8 (8 ) : 8 03 6 -
8 04 9 

1 7 ]  C h i  H a ro l d ,  L i u ,  e t  a l  E n e r -

Ef
iB c i en t  U AV  C o n t r o l  fo r  E f fe c t i v e  a n d  F a i r  C o m m u n i c a t i o n


gy

[ ,

C ov e r a g e :  A  D e e p  Re i n fo r ce m e n t  L e a r n i n g  A pp r o a ch [ J ]  I E EE  J ou r
n a l  on  S e . l e c ted  A re a s  i 

C o m mun i c at i o n s ,  2 0 1 8, 36

9) 2 0 5 9 20 7 0




 S h i  X  B i  B  Z h a n g  Q  e t  a l  C o n s e n s u s b a s e d  m u l t i u av  t a rg e t  t
a ck i n g  w it h  c o m m u n i c at i on

 - -

1 .

[ ] , , ,

d e l ay s [ C ] // 2 0 n at i o n a l  C o n fe r e n c e  o n  I n t e l l i
7  9 t h  I n t er
g e n t  Hum a n M ac h n e  S y s t em s  a nd



1 i

Cy b er
n et i cs(I HM S C ) . I EEE , 
20 1 7 ,
2 :  332 -

336 


1 9 ]  M a o  X  G u  Y  Y n  W  Wa k  p ro x i m a l  g r a d i e n t  A n  e n e i g y e f
, ,
i c i e nt  a l g o r it hm  fo r  c on s e n s u s
i . l :

o pt m i za t i o n [ J]
i . I EEE  I n t er
net o f   Th ng s i  Jour
n al ,  2 0 1 8 , 
6 (2 ) :  2048 -
2 06 0 


20
] 
Yu Z Wa n g Z G u a r a n te e d C o s t C o n s en s u s

,  
.     for  Mu lt i
p le  G e n er a D y n a m l  ic S y s t em s  W it h S w i tc h n g


 i

To p o l o gie s [ J] .  I EEE A c c e s s 
, 
20 1 9 , 
7 3 7088

3 709 9 


2 1
]
HouJ ,  Zh en g  R  H . i e r a rc h i c a l  c o n s e n s u s
 p ro
b l em  v a  g roup  i n fo r m at i o n  ex ch a n g e [ J ]  I EEE
i 
 .

tr a n s a c t i o n s  o n  c y b er n e t i c s , 
20 1 8 ,
4 9 (6 ) :  23 5 5 23 6 -
1 

P2 ]  H ao  L , Q i  X ,  Ya n g  Z .  To p o l o g y  o p t m i s e d  f
i xe d i

ti m e  c o n s e n s u s  fo r  mu l t i -

UAV  sy s t em  in a

m u l t i p a t h fa d ng  c h a n n e l f J ]  i .  I E T C o m m un  i c at i on s , 
2 020 ,
1 4( 1 1

: 1 73 1

1 739 


2 3 ]  Tr i m b l e  J, 
P ac k  D Ru b , 
l e  Z Ad .   i s tri b u te d  s
y s t e m fo r c o n n ec t i v i y
  t

tr a c k i n g w i t h u a v s [ C ] / /2 0

 1 9  I EE E

Na ti o n al  A er o s p ac e  an d  E l e c t r on i c s  C o n fer e n c e  ( N A EC O N ) . I EEE 2 0 1 9 , 
: 1 55

1 62 


2 4]  Zha ng 
Y Zha ng B X Y
,  
, 
 i
, 
e t al  .  Tr a n s m itt e r S e l e c t i on a i d e d

  A d ap ti ve  C o n s e n s u s B a s e d D at a -

  S h ar i ng

fo r  U AV  S w a nn s [ J ] . I EE E A c ce s s 
, 
20 1 9 , 
P P(9 9) : 1



2 5 ]K N go c  T H K aw a n hi  M A  S y n ch r o n zin g  A
pp r o a c h  fo r  N on Un

i k u ch i S  ,

, 
is
,  et  al .  i

i fo n n  Ti m e


Va r y i n g  C o m m u n i c at i o n  De l ay s  o n  t h e  Ave r a g e C o n s en su s   of  Mu lti  A g ent  S y s t e m [ C ] / /2 0 1 9  I EE E



Veh i c l e  P ow e r  a n d  Pr o
pu l s i o n  C o n fe r e n c e ( V P P C ) 
. I EEE , 
20 1 9 : 1

6 

2 6 ]SuH Zh a n g  T  Q an  L C o n s e n s u s  co n r o l  s t r at e n v er t er  a r  c ond it i o n i n
 et  a 
gy  o f g  g r o up  fo r


i l t i i

[ , , ,

r en e w a b l e  e ne i g y 
c o n s u m p t i on b a s e d  o n  d i s t r i b u t e d ad  
^t i v e  s y st e m [ C ] // 2 0  1 7 92 :

96 


2 7 ]  S un  C , 
Ya n g  C ,  F an  S  et  a l  5
. Des i
g n  o f  d i s t r i b ut ed  c o n s en s u s  K a l m a n  f i lt e r  b a s e d  o n  en erg y

o p t i m i z at i o n [ C ] / / P r o c e e d i n g s  o f  t he  3 3 rd  Ch i nes e  C on t ro l  C o n fe r e n c e .  I EEE , 
20 1 4 : 7 1 33

7 1 3 8 

60



参考文 献 


2 8 ]  C h en J 
, 
Ye  F , 
Ji an
g 
T , 
e t al  .  UAV -

e n ab l e d  W i re l e s s  E n e rg y Tr a n s m 
i s s i o n  a n d  I n fo nn at i o n  Co l l 

e c t i on

B as e d  on  C o n s e n s u s b a s e d -

 B un d l e  A l
g or
i t h m [ C ] // 2 0 2 0  9 t h   As i a -

P ac i f i c  C o n fer e n c e o n   A n t enn a s

and  Pro
p ag at i o n  (
A P CA P) .  2 0 20 

2 9 ]  M a o  X ,  G u  Y  Y i n  W  Wa l k ro x im al a d i e n t  A n  en e i ^ y e f
if i c i e nt  al go r i t
i i m  fo r  c o n s e n s u s
 gr



p
. :
[ ,

o p t i m i z at
io n [ J] . I EE E  I n ter
n et o f   T h ng s i  J o urn al , 
20 1 8,6



:  2 04 8 2060 -




3 0 ] Lu X  X , i ao  L , 
Da C i
, 
etal .  UAV A -

i d e d 5 G  C o mm u n i c at i o n s w i t h
   D e ep R e 
i n fo r ce m e n t  Le arn i ng

A ga i n st  Ja mm i n
g [ J] . 2 0 1 8 


3 1
]  Sh am s o sh o ara  A  Kh a ,
l e di  M A fg h a h  F
,  s  et  a l  . D i st r i b ut e d  c o o
p e r a t i v e  s p e c t r um  s h a r i n g  n  u a v

 i

n e t w o rk s  u s n g  mu l t i a g e n t  r e n fo r c e m e n t  I e a m n g [ C ] / / 2 0

i i 1 9  1 6 t h  I EE E  A nn u a l  C o n s um e r

C o mm u n i c at i o n s  & N e t w o rk  i ng 
C o n fe r en c e  (
C CN C ) . I E EE , 
20 1 9 : 1

6 


32
] 
O i all i ta  U , 
S a ad  W B et , 
ts t ett er  C  Ce . ll u l ar c o nn e ct ed-

 U AV s  o v er 5 G  :  D eep 
r e i n fo r c e m e n t  l e a r n i n


fo r  i nt e r fe r e n c e  m a n a g e m en t [ J

.  ar X i v p r e p r nt

i  ar X i v :  1 80 1 . 05 500 ,
20 1 8 


33
] 
L i u  Y Q , 
i n  Z Ca Y , 
i 

, 
e t al  .  UAV  c o m m u n i c at i o n s  b a s e d o n n o n o r h o g o n a l m u lt i p e a c c e s s [ J ]
 

t  l  . I E EE

W i rel e s s  C o mm un i c at i o n s ,  2 0 1 9 ,
26( 1

: 5 2 57-




3 4 ]  Li u  C  H , 
C h e n Z Ta n g 
, 
J,etal .  En e rg y -
i c i e nt
e ff  UAV  c o nt r o l  fo r  e f f
e c t i v e  a n d  fa i r  c om m u n i c at i o n


c ov er a
ge :  A  de e p  r e n fo rc em e n t  i l ea r
n i ng  a p p r o a c h f J ]  I E EE J o ur
na . l onS e l e ct e d  A re as  i 

C o mmu n i c at i o n s ,  2 0 1 8 , 3 6(9) :  2 0 5 9 207 0 -



O S a b e r  R ,  M u r r ay  R M  C o n s en s u s
3 5 ] fat i
p r o b l e m s  n n e t w o rk s  o f ag e n t s  w i t h  s w i t c h n g  t o p o l o ^


l  . i   i
[ 

a nd ti m e d e l ay s [ J ]

.  I EEE Tr a n s ac t  i on s  o n  Au t o m a t i c  C o nt r o l
,
2 0 04 ,
49 9
( )
:  1 520 -

1 533 


36
]  O fat i


S a b er  R Mu r r ay R M  C o n s e n s u s
,  
 .

 p r o b l e m s  i n n e t w o rk s  o f a g ent s  w i t h  s w i t c h n g  t o p o l o g y


  i

an d  ti m e d e l ay s [ J ]

.  I E E E Tr a n s a c t  i on s o n   Au t o m at i c  C o n t r o l , 
2 0 04, 49 (9

;  1 5 20 -
1 533 


37
]  Z h o u  Z  F en g 

 , ,
G uB ,  et  a l  . W he n  m o b il e  c r o w d  s ens i n g  m e e t s  UAV :  En e rgy e ffi c i e n t  t a s k


as s i
g n m e n t  a nd
 ro ut e  p an ni n g [J ] I . I EEE  Tr a n s a ct i o n s  o n  C o m m u n i c at i o n s , 2 0 1 8 , 6 6

1 1

: 5 5 2 6 

553 8 


3 8] H ou  J ,  Z he n g  R  H i e r a r c h i c a l  c o n s e n su s  p r o b l e m  v i a  g r o u p  n fo r m at i o n  e x c h a n g e [ J ]
. i .  I EEE

tr a n s a c t i on s  o n  c
yb er
n eti c s , 
20 1 8, 49 (6) :  23 5 5 23 6 -
1 


39
] 
Me s b ah M On i .   a dy n a m i c  e x t e n s i o n o f t h e
   t h e o r y o f g r ap h s f C l /  
y ^ ro c e e d i n g s  o f t he 2 0 02   A m er i c an

C o n t ro C o n fe re n c e l
 (
i EE C a
f  t .  N o CH 3 7 3 0 .  1

.  I EEE , 
2 0 02 ,
2 : 1 23 4 -

1 23 9 

4 0 ]  Z H AN G  Q i n e Z H U  H u ay o n g a nd  S HE N L nch en g A S u r v ey  o f C o n s e n s u s T h e o r y  n  Mu 

[ g j

,  
 i .     i l ti

A g ent  S
y s t em [ C ] .  N av i
g at i o n  an d  Con tr o l  C o n fe r en c e ,  2 0 1 0 :  4 0 46 -



4 1 ]ShiX ?  B i B ,  Z ha n g  Q ,  et  a l  C o n s e n s u s b a s e d  mu l t i u a v  t a rg e t  t r ac k i n g  w i t h  c o mm u n i c at i o n


 -

d e l ay s [ C ] / /2 0 1 n at i o n a l  C o n fe r e n c e  o n  I nt e l l i g e nt  H u m a n
7  9 t h  I n t er

Mac h i n e  Sy st em s  an d

Cy b er net i cs(I HM S C ) . I EEE , 


20 1 7 ,
2 : 3 3 2 336 -



6 



北 京 邮 电 大 学工 学 硕 士 学 位 论 文 


4 2 ]  Hao  L , Q i  X ,
Ya n g  Z .  Top o l o gy  op t i m i s e d  f
ixe d -

ti m e  c o n s e n s u s  fo r  m u l t i -

UAV  s y s t em  i na

mu l t i p at h  fa d n g i

c h a nn e l [ J ] . I E T C o m m un
 i c a ti on s , 
2 02 0 ,
1 4( 1 1

: 1 73 0 -

1 73 8 

62

You might also like