Professional Documents
Culture Documents
基于共识策略的多无人机组网研究 黄芷菡
基于共识策略的多无人机组网研究 黄芷菡
基于共识策略的多无人机组网研究 黄芷菡
: :
.
避耆 部 f Af
硕 士 学位论文
题 目 : 基 于 共 识 策 略 的 多 无 人机
组网研究
学 号 : 2 0 1 911 0349
姓 名 :
黄芷菡
专 业 信 息 与 通 信 工 程
:
导 师 :
许晓东
学 院 信 息 与 通 信 工 程
:
2 02 2 年 5 月 27
日
中国 ■
北京
密 级 保密 期 限
:
:
分f 却 t 大聲
硕 士 学 位论文
题 目 基 于共识 策 略 的 多 无 人 机 组 网 研 究
:
学号 : 2 0 1 9 1 1 03 4 9
姓名 :
mm
专 业 信 息 与 通 信 工 程
:
导师 :
许晓东
学 院 信 息 与 通 信 工 程
:
2 02 2 年 05 月 27
日
S e c r e c y C l a s s i f
i ca ti o n : S e c re c yP e r i od
:
B e u n g U n v e r s ty o f
i
i i
|薦 Po sts a n d
T e l e c o m m u n c at o n s
i i
T hes i s fo r M a s t e r D e g re e
To p i c : R e s e a r c h o nm u lti
-
UAV n e tw o r k
b a s e d o n c o n s e n s u s s t r a t e g y
S t u d e n tN o . :
20 1 91 1 03 4 9
Cand i d a te :
黄龙 菌
S u bj e c t : I n fo r m a t i o n a n d C o m m u n c a t i o n E n g i n e e r i n g
i
S u p e rv i s o r :
许晓东
I n s ti t u te :
S c h o o l o f I n fo r m a t i o n a n d
Com m un i c a t i o n Eng i n eer n g
i
2 022 0 5 27
.
.
基 于 共 识策 略 的 多 无 人机组 网 研究
摘
要
在 人们 生活 的 各个领域得 到 了 广 泛 的 应 用 。
与 单 无人机相 比 , 团 队式
的 无 人机系 统在执 行追踪 、 监控 、 检查和 自 动化工 厂等协 作任务方面
具有显 著优势 其中 作 为无 人机领域 的 个重要应用 多 无 人机协
一
,
。 ,
邻 无人机 的 信 息交 互完 成追踪任务 。 然而 , 在 多 无 人机 追 踪 网 络 中
,
由 于追 踪 无 人机 时刻 在 移 动 , 且信 道环 境 复 杂 多 变 , 网络拓扑会随时
发生 改变 ,
一
些 现有 的 通信 链 路 也会 发 生 频繁地 中 断 , 导致通信质 量
下降 , 严重影响 共识策略 的 准确 性和 收敛 时 延 , 以 至于 无法 实 现精 准
追 示
£
。
在追踪 网 络 中 , 影 响 共识 收敛 时 延 的 主要 因 素是 网 络 的 连通度
,
且 无 人机 在 追踪 和 共 识 的 过程 中 能效也是 个 最基本 的 性 能 指 标
一
,
,
因此 , 本文将针对 以 上指 标进 行 以 下研 究
:
针对增 减 网 络 拓 扑 边 以 提 高 网 络 连通度 的 方 式 本文 在追 踪 网 络
,
中 引 入了 架 中 继无人 机 建 立 了 种 新 的 网 络 拓 扑 更新方式 提 出
一
一
,
,
了 种 基 于 D QN 算 法 的 中 继 无 人 机 部 署 与 轨 迹 规 划 的 方 案 将 部 署
一
敛 时 延 其 次 在 追 踪 无 人 机 的 运 动 过 程 中 提 出 了 基 于 D QN 的 轨
。 ,
,
迹规划算法 有 效地 提 高 了 多 无人机跟 踪 网 络 的 共 识 成 功 概 率 降低
,
,
了 多 无 人 机 追 踪 网 络 的 中 断 概 率 仿 真 结 果 表 明 与 Q e am n g 算 法
-
。 , l i
、
针对 增 减 网 络 拓 扑 权 重 以 提 高 网 络连通 度 的 方 式 本 文 提 出 了
一
种 基 于 MAD QN 算 法 的 多 无 人 机 轨 迹 和 功 率 分 配 联 合 优 化 方 案 。
由
于 联合优 化 问 题 的 组合 性 和 非 凸 性 , 同 时 考 虑 到 每 架 无人机 的 效 用 是
根据 网 络环境 和 其它 无 人机 的 行为 来 确 定 的 可 以 将 该 问 题 建模 为
一
个 随 机博弈 问 题 针对 离 散 动 作 空 间 和 大状态 空 间 导 致 的 计 算 复 杂 度
。
高的问题 提出 了 , M A D QN 算 法来求 解 该 问 题 的 最 优策 略 仿 真结 果
。
针对 改变 网 络 连通度 可 以 减少 共 识 收敛 时延 的 具 体 原 因 本 文进
,
步从 图论 的角 度 解释 了 网 络共识 问 题 分 析 了 网 络连通度 并且
一
, , ,
详 细 给 出 了 前 两个 提 出 的 方 案之 所 以 能提升 和 改善共识 收敛 时延 的
具体原 因 , 同 时对 其分 别进行 了 相 应 的 仿 真 , 仿真结 果验证 了 分析 结
果
。
并 分 别 提 出 了 两种 优 化 方 案 , 对 未来可研 究方 向 进 行 了 展 望
。
关 键词 : 多 无人机追踪 网 络 共识 收敛 时 延 路径 规划 能效优化
深度强化学 习 算法
R E S E ARC H O N M U LT I U AV S N E T W ORK
-
B A S E D O N C O N S E N S U S S T RAT E G Y
AB S T RA C T
I n r e c ent
y e ar s ,
unm a n n e d a e r i a l v e h i c l e ( UAV ) h a s b e e n w i d e l y u s e d
i n v a r i ou s f
i e l d so f pe op l e
s l i fe b e c a u s e o f i t ss m al l s i z e , s
t r on
g m o b i l ity
an d l ow c o st . C om p a r e d w i th s in
gle UAV ,
te a m U AV s
y ste m h a s si
gn i f i c an t
a dv a n t a o p e r at i v e t a s k s s u c h a s t r a c k i n g
g e s i n p e r fo r m i n g c o , m o n i to ri n g
,
i ns
p ec
t i on a nd au t o m at i cc h e m i c a l
p
l an t . Am o n g t h e m a s an i m p o r t a nt
,
a
pp l i c ati on i n t h e f i e l d o f U AV ,
mu l t i -
UAV s c o o p e r at i v e tr a c k i n g
t ask ha s
at t r a c t e d e xt e n s i v e at t e n t i on
.
In th e mu l ti
-
U AV s tr a c k i n g n e t w o rk , t h e ac c u r at e an d t i me ly
i n fo r m a t i on i n t er a c t i o n b e t w e en UAV s i s t h e k ey t o a c c ur at e l y t r a c k t h e
tar
g et . At p r e s e n t , m o r e a n d m o r e at t e n t i o n h a s b e e n p a i d t o d i s t i b ut e d
r
c o l l ab o r at i v e e s t i m at i o n m e th o d s . Mu l ti
-
a
g e n t c on s e n s u s s t r at e gy i s on e o f
t h e i m p o r t a n t m e t h od s . A n e ff
ec ti v e c o n s e n s u s s t ra t e g y c a n c o m p l e t e t h e
t r ac k i n g t a s k t h r ou g h t h e i n fo r m at i on i n t e r a c ti on w i t h ad a c e n t UAV s j
.
How ev e r ,
i n the mu l t i -
UAV s tr a c k i n g n e tw o rk , b
e c au s e t h e U AV o f t he
t r ac k i n g n e t w o rk i s m o v i n g a l l t h e t i m e , an d th
e c h a n n e l e nv i r o nm e n t i s
c om
pl ex
a n d c h an
ge a
b le ,
t h e n e t wo rk t o p o l o g y w i l l c h an g e at an y t i m e
,
an d s om e ex i s t i n g c o mmun i c at i o n l i n k s w i l l b e i n t e r r u
pte d f
r e qu e ntl y
,
r e sul ti n
g i n t h e d e c l i n e o f c om mun i c ati on q u a l i t y
,
w h i c h s e r i o u s l y a f fe c t s
th e a cc u r a c
y a n d c onv e r g e n c e d e l ay o f th e c omm o n s t r at e g y s o t h at
,
a c c u r at e t r a c k i n c ann o t b e r e a l i z e d
g
.
I nt h e t r a c k i n g n etwo rk th e m a i n fa ct o r a f fe ct n g t h e c on s e n s u s
,
i
c onv e r
g e n c e d e l ay i s th e c onn e c t i v i t y o f th e n e t w o rk a n d t h e e n e r gy
,
e ffi c i e n c o f UAV s a r e a l s o th e m o s t b a s i c e r fo r m a n c e i n d e x i n th e
y p
p r o c e s s o f t r a c k i n g a n d c on s e n s u s T h e r e fo r e t h i s p ap er w i l l s t u d y t h e
.
,
ab ov e i n d e x e s a s fo l l o w s
:
A i m i n g at th e w ay o f i n c r e a s i n g o r d e c r e a s n g n e tw o r k t o p o l o gy
i
ed
g e s t o i m p r o v e n e t w o r k c o nn e c t i v i t y ,
w e n t r o d u c e a r e l a y UAV i n t o t h e
i
tr ac k n g n e tw o r k
i
, e s t a b l i s h a n e w n e t w o r k t o p o l o gy u p d a t e m e th o d a n d
,
pr o p o s eas c
h e m eo f re l ay UAV d e p o y m e n t a n d t r aj e c t o r
l
y p l a nn n g b a s e
d i
o n D Q N a g o r i t hm l . We d i v i d e th e p r o c e s s o f d e p l o i n
y g r e l ay
UAV i n t o tw o
ste
ps
. F i rst l
y ,
ad ep l o y m en t al
gor i t hm b a s e d o n D Q N i s
p r o p o s e d o o bta n
t
i
t h e n i i ti a l p o s i t i o no f
re l ay
U AV ,
w h c h o p t i m z e s t h e e n e rg y c o n s u m
i i
p
ti on
a n d c o n s e n s u s c o n v e r
g e n c e d e a y o f r a c k n g n e t wo r k S e c o n d y i n t h e
t l i . l
,
pro
c e s so f tr a c k n g th e m o v e m e nt o f
i UAV a ,
tr a e ct o r
j y p a nn n g a g o r
i l l i t hm
b a s e do nD Q N i s
p r o p o s e d w h c h e
ffe c t v e
y m p r o v e s th e c o n s e n s u s
,
i
i l i
succ e s s
p ro b ab i l i t
y o fm u l t i
-
U AV s tr a c k n g n e t w o r k an d r e d u c e s t h e
i
i n t e rr u p t o n p r o b a b i i l i t
y o f m u l t i
-
UAV s t r a c k i n g n e t w o rk . S i m u l at i o n
re su l t ss h o w t h at o u ra l
gor i t hm h a s b e t t e r p e r fo r m a n c e t h a n Q -
l e am i n g
a or h m an d r an d o m l o c at i o n d e m e n ta g o r hm
p oy
t t
g l l i
l i
.
A i m n g a t t h e w ay o f
i i n c r e a s n g o r d e c r e a s i n g th e n e tw o r k t o p o o g y
i
l
w e g h ttoi i m
p r o v e t h e n e t w o rk c o nn e c t i v i t
y w ep r o p o s e a j o
,
i nt
o p t m z a t o n s c h e m eo f m u l ti
i i i
-
UAV s tr aj e c t o iy a n d
p o w e ra l l o c at i o n b a s e d
o n MA D Q N a l Du e oth en o n
g o ri hm c onv ex i t
yo f h e o i n t o p t i m i z at i o n
-
t . t t
j
y o f e a c h UAV i s d e e r m n e d
t t h e u t
p r o b e m an d c o n s i d e r i n g h a
l t i l i t t i
a c c o rd i n
g ot h en e w o r k e n v
t t i r o nm en tan d th e b e h av i o ro f o th e r U AV s ,
we
c a nm o d e lth e
p r o b l e m a s a r an
d om
g
am e
pro
b eml . A i m i n gatth epr o b e m
l
o f h i h c o m u t at i o n a l c o m l e x i t
g
p p y c a u s e d b y c o n t i n u o u s a c t o n s p a c e an d
i
ar
g e s t a t e s p a c e M AD Q N a g o r t hm i s p r o p o s e d t o s o l v e t h e o p t i m a l
l l i
,
s trat e
gy o f h e p r o b l e m S i mu a i o n r e s u l t s s h o w h at o u r a l g o r i t h m h a s
t l t t .
o b v i o u s a d v a n t a g e s o v e r o th e r a l
g
or i t h m s a n d e ffe c t v e y r e du c e s t h e
,
i l
c o n s e n s u s c o n v e rg en c e d e l a d n e tw o r k e n e r
y an gy c o n s u m p t i o n
.
I n v e w o f th e s e c i f c re a s on sw h
y c h an g i n g th e n e tw o r k c o nn e c t i v
i
p i
i t
y
c a n r e d u c e th e c on s e n s u s c o n v e r d e ay w e e x p l a i n t h e n e tw o rk
gen c e
l
,
c on s en s us
p r o b l e m f r o m t h e p e r s p e c t i v e o f g r ap h t h e o r y a n a y z e t h e
,
l
n e t w o r k c o n n e c t i v i ty a n d g i v e t h e s p e c fi c r e a s o n s w h y t h e f
,
i i r s ttwo
p r o p o s e d s c h e m e s c an i m p r o v e h e c o n s e n s u s c o n v e r g e n c e d e ay i n d e t a i l
t l
.
A t th e s a m e ti m e t h e y a r e s i m u l a t e d r e s e c t v e l y a n d t h e s i m u l at i o n
,
p
i
,
re su v e r i f y o u r an a l
y sis
l t s
.
To s um u p ,
t h i s p ap e r m a i n l y s t u d i e s th e t w o p e r fo r m an c e i n d i c at o r s
o f n e t w o rk c o n s e n s u s c o n v e rg e n c e d e l ay a n d e n e rg y e f fi c i enc
y i n th e
tr ac k i n
g s c e n ar i o ,
m a k e s t h e c o rr e s p ond i n g a n a l y s i s fr om t h e p e r s p e c t i v e
o f n e t wo rk c onn e c ti v i t y a n d u t s fo r w a r d t wo o t i m i zat i on s c h e m e s
p ,p
re s
p e ct i v e l y . Th e f
i x t ure r e s e a r c h d i r e c t i on s ar e
p r o sp e ct e d
.
KE Y W O RD S : M u l ti -
UAV s tr a c k i n g n e t wo rk C on s e n s u s c onv e rg e n c e
,
d e l ay ,
P a t h p a nn n g
l i
,
E n e rg y e f f i c i en c
y o p ti m i zat i on ,
D e ep
r e i n fo r c e m e nt
l e arn i n g a l g o r i t h m
目
录
第 章 绪论
一
1
1 . 1 研 究 背景及 意 义
1
1 . 1 .
多 无 人机 集 群追 踪 网 络 概 述
〗
1
1 . 1 2 基 于 共识 策 略 的 分布 式 协 同 估计 在追 踪 网 络 中 的 研 究
. . . . . . . . .
2
1 .
1 .
深度 强化 学 习
3
2
1 . 1 . 4 研宄意义
2
1 . 2 国 内 外研 究现 状
3
1 . 3 论 文主 要 内 容 及创 新 点
5
1 . 4 论文结构 安排
6
第 二 章 基 于 D QN 算 法 的 中 继 无 人 机 部 署 与 轨 迹 规 划 方 案
9
2 .
系 统模 型
1
9
2 部 署模型. 1 . 1
9
2 丄2 信 道模 型 1
0
2 . 1 . 3 共识 能耗模型-
1 1
2 . 1 .
共识概率模型
4 屮 断 -
1
3
2 2 .
问 题构建 1
4
2 . 2 共 识 收敛 时 延 和 能耗 的 折 中
. 1 1
4
2 . 2 2 追 踪 网 络 中 的 共识和 中 断概率
.
1
5
2 . 3 基 于 D QN 的 中 继 无 人 机 初 始 化 部 署 算 法 1
5
2 3 . . 1 算法
D QN 1
6
2 3 2
. .
算法模型定 义 1
6
2 3 . . 3 算 法 流程 描 述 1
7
2 3 4
. .
算 法具 体训 练流程 20
2 3 . . 5 算 法 具 体 实 现流程 22
2 4 .
基于 D QN 的 中 继无 人机 轨 迹 规 划 算法 23
2 4 . . 1 算 法 模 型 定 义 及流程 23
2 4 2
. .
算 法 具 体 实 现 流程 25
2 . 5 仿 真 结果 与 分析 25
2 5 . . 1 仿 真场景 26
2 5 2
. .
仿 真 结 果及 分析 26
2 本 章小 结
. 6 2
8
第 三 章 基 于 MAD Q N 算 法 的 多 无 人 机 轨 迹 和 功 率 分 配 联 合 优 化 方 案
29
3 . 1 系 统模型 29
3 . 1 . 1 部署 模型 29
3 .
1 . 2 多 无 人机追 踪模 型 3 0
3 . 1 . 3 信道模型 3
1
3 丄4 离 散共 识 算 法 模型 32
3 . 1 . 5 能 耗模 型 3 3
3 . 2 问题构建 3 3
3 . 3 . 1
博 弈 论基 础 3 5
3 . 3 . 2 基 于 MA D Q N 算 法 的 联 合 优 化 博 弈 问 题 及 模 型 定 义 3 5
3 . 3 . 3 算 法 流程 描 述 3 7
3 . 3 . 4 算 法具 体训 练流程 40
3 .
4 仿 真 结果 与 分析 4
1
3 . 4 . 1 仿真场景 42
3 . 4 2 .
仿 真结 果及 分析 42
3 . 5 本章小结 … 44
第 四 章 多 无 人机 网 络 中 共 识 收 敛 时 延 分 析 45
4 . 1 共 识 收 敛 时 延 的 影 响 因 素 分析 45
4 .
1 图 论 基础
.
1 45
4 . 1 . 2 网 络 中 的 共识 问题 46
4 . 1 .
共 识 算 法 的 收 敛性 分析及性 能 仿 真
3 47
4 2 .
改变 网 络连通度 的 方 案 分析 50
4 2 . . 〗 增 减拓扑边 中 继 无人机 部 署 方 案 50
4 2 2
. .
增 减链路权 重 功 率 分配 方 案 5
1
4 3 .
仿 真 结果及性 能评估 52
4 4 .
本章小结 53
第五 章 总 结与展望 5 5
5 研 究 内 容总 结
. 1 5 5
5 2 后续工作展望
. 56
参考 文献 59
第 一
章 绪论
第 一
章 绪论
本 章 首 先 对 论 文 的 研 究 背 景进 行 了 介 绍 , 内 容 包括 多 无人机集 群追 踪 网 络 的
概述 、 基 于 共 识 策 略 的 分布 式 协 同 估 计在追 踪 网 络 中 的 研 究 及 研 宄 意 义 。 其次
,
对 国 内 外 研 究现状进行 了 介绍 同 时 阐 述 了 本 论文 的 主 要研 宄 内 容及 相 应 的 创 新
。
点 。
最后 说 明 了 论文 的 结构 安排
。
1 . 1 研 究 背景 及 蚊
1 . 1 . 1 多 无 人 机 集 群 纖 网 络雛
近 年来 , 无 人机 由 于 其 通 用 性 、 灵 活 性 和 相 对 较低 的 运 行 成 本 , 在某些军事
或 民 用 领 域 受 到 广 泛 关注 根据 B H n 。 te l l i
g en c e 的报告 预计 ,
2 02 1 年将有超过 290 0
万 架 无 人 机 投 入 使 用 预计 到 ,
202 5 年 ,
无 人 机 必 将在 军 民 领域得 到 广 泛 应 用 W
。
同时 , 在 未来 的 移动 通信 技 术 中 , 我 们 不 仅 将 在 地 面 部 署 更密 集 的 通 信 基 站 ,
而
且还将合 理利 用 三 维 空 间 部 署 空 中 通信基站 从而 缓解地面通信基 站 的 过载 问 题
,
[
2]
。
在下 个十 年里 无人 机 将 小 型 化 智 能 化 和 集群 化 在 G 及 以 上无人机
一
, 、 。 5
通信 的 最 新 进 展 和 未 来趋 势 报 告 中 提 到 了 将来 关 于 无 人 机 通 信 的 几 大 趋 势 其 中
,
基 于 多 无 人机 的 集群 网 络 [
3]
, 即 可 扩 展 的 多 无 人机 网 络 , 得 益 于 其 高流 动 性 和 快
速供应 的 特 点 己经成为 了 种 快 速 有 效 的 恢 复 和 扩展 通 信 的 可 行 解 决 方 案
受
一
, ,
到 了 极大 的 重视 [
4]
。
目 前 , 随 着 科技 的 不 断 发展 和 进 步 , 无人 机 将被 应 用 在 很 多 场 景 , 如 搜索 救
援 、 野 火监测 、 目 标监控 、 目 标 追 踪 和 武装 打击 等 [
5 ]
。 在 最 具 未来感 的 场 景 中
,
含了 标 追 踪 其 将成 为 无人 机 的 关 键 应 用 场 景 之 其主 要 任务 是 通 过 将 目 标
一
目 , ,
保持 在 其视 野 内 来 跟 踪 地 面 上 的 移 动 目 标 。 相 比 于 单 无人机 追 踪 ,
多 无人 机 协 同
6]
势 [
。
1
北 京 邮 电大 学 工 学 硕 士 学 位 论文
1 . 1 . 2 基 于共 识策略 的 分布 式协 同 估 计在 追踪 网 络 中 的 研究
在 多 无人机协 同 追踪 网 络 中 , 分 布 式协 同 估 计 方 法 越 来 越 受 到 重 视 。
分布 式
协 同 估 计 是 分布 式信 号 处 理 的 个 分 支 即 分布 式 网 络 中 多 个 代 理 通 过 与 相 邻 代
一
理 的 信 息 交互完成对共 同 标参数 的 协 同 估计 与 传 统 的 集 中 式 估 计方 法 不 同
[
7]
目 。
,
分 布 式 协 同 估 计 方法 不 需 要 融合 中 心 每个 传 感 器 节 点 只 需 要 与 满 足 通 信 条 件 的
,
相 邻 节 点 通信 即 可 [
8]
。
在 多 无 人 机 目 标 追 踪任 务 中 有 效 的 分 布 式 协 同 估 计 算 法 可 以 使 得 当 其 中
一
。 ,
兴趣 的 量达成
一
致 。 这样 的 量可 能 与 单个 作 用 物 的 运动 有关 , 也 可 能 与 之无关
。
般形 式 的 协 议 问 题是很重要 的 。 近 年来 , 越 来 越 多 的 学 者对 多 智 能 体
共识 策略及其应用 进行 了 研 究 [
9]
。
1 . 1 . 3 深度 强化 学 习
近 几 十 年来 , 机 器 学 习 在 无线 通 信 网 络 中 得 到 了 广 泛 的 关 注 , 强化 学 习 算 法
已 广 泛 应用 于 人工 智 能和 无 线 通信 领域 [
1 G]
, 且 已 经 被 证 明 具 有 解 决 无 人 机无 线 网
络 问 题 的 能力 [
1 1
]
。
其 中 深度 强化学 习 在 最近 的
一
些游戏任 务上表 现 出 优异 的 性 能
,
提供了
一
个 很 有 前途 的 解 决方 案 [
1 2]
, 它 使 用 强大 的 深层 神 经 网 络 来指 导 决策 很
,
及大状 态空 间 导 致 的 计算 复杂 度 高 的 问 题 深度 强化学 习 是 种 很 好 的 解 决 方案
一
3]
同 时 在 面对 些 组 合性 及 非 凸 性 问 题 其 依 旧 也 表现 出 了 良 好 的 性能
1 一
[
,
。
,
1 . 1 . 4 研 究窻 义
在 分 布 式 多 无人 机 集群 化 的 追踪 网 络 中 无 人 机 之 间 准 确 及 时 的 信 息 交 互 是
,
准确 追踪 标 的 关键 要 实 现这 标 个重要 的 前 提是无人机 之 间 能 够进 行
一
一
目 , 目 ,
良 好 的 通信 和 协作 。 在 复 杂 的 战场 环 境 中 信 道 环 境 通 信 链 路 也 是 复 杂 多 变 的 , 、
,
。 ,
群 的拓 扑 结构实时变化 , 在这些情况 下 , 无 人 机 之 间 的 连 通 性容 易 受 到 这 些 时 变
信 道参 数 的 影 响 , 导 致无 人 机 之 间 的 通 信 质 量 下 降 , 会严重影响 网 络性能 ,
无法
2
第 章 绪论
一
实 现精 准 的 共 识 和 目 标追踪 , 甚至 导致 目 标丢失 。 因此 , 集 群 化 的 无 人机 组 网 策
略 将面 临 挑 战 。
其次 , 由 于 无人机 的 电 池 电 量有 限 , 使得 多 无人机追踪 网 络 的 网
络 寿 命 大 打折 扣 , 所以 , 如 何 保证在 复 杂 战场 下 多 无人机 网 络 的 稳 定 性 , 延长 多
无疑是 项 既 有 理 论 意 义 又 有实 用 价 值 的 课 题
4]
无人 机追 踪 网 络 的 网 络寿 命
1
一
[
,
。
1 . 2 国 内外研 究 现状
由 于 部署 的 灵 活 性和 高机动 性 ,
无 人机可 以 提 高蜂 窝 网 络 的 性 能 , 目 前有很
多 研 宄 集 中 在 多 无 人 机 网 络 来辅 助 蜂 窝 网 络 的 研 究 上 文献 作者主要研 究
5]
中
1
[
, ,
对地面用 户 之 间 的 中 继 。
基
覆盖概率 。 文献 [
1 6]
中 , 作 者提 出 了
一
种 基于 最大化 用 户 平均 意 见得 分 、 无 人 机三
维 部 署 和 动 态运动 联合 问 题 提 出 了 种 三 步 法 来 实 现 多 无人 机 的 三 维 部 署 和 动
一
态运动 文献 作 者 提 出 利 用 深 度 强 化学 习 进 行 无人 机 控 制 并提 出 了
种
7]
中
一
1
[
。 ,
,
基 于 深 度 强 化 学 习 的 覆 盖 与 连 接节 能 控制 方 法 有 效 提 高 了 多 无 人 机 的 覆 盖 率 但
。
标 , 没有 论 文 专 门 研 究 移 动 多 无 人 机 网 络 的 特 性
。
在 基 于 共 识 策略 的 网 络 研 究 上 , 分 布 式 多 无 人机 目 标 追 踪过程 中 ,
无人机之
间 的 通 信 时 延 会 增 加 共 识 算 法 的 估计 误 差 文献
8】
中 作 者为 了 减 轻这 问 题对
1 一
[
, ,
估计算法 的 影 响 , 提出 了
一
种 具 有 通信 时 延 信 息 补 偿 的 估 计 算 法 。
首先 , 利用 滤
波 器 对 各 无人 机 的 通 信 时 延 信 息 进 行 预 测 , 得到 补偿后 的 信 息 。 此外 , 利 用 共识
得到 了 通信 时 延 信 息 补 偿 的 估计 算法 文献 作者开
9]
算 法 结合 卡 尔 曼 滤 波 中
1
[
。 ,
,
发了 种 用 于 分散共识 优化 的 阶 算法 该 算法 比 当 前最 先进 的 算法更节 能
有
一
一
, ,
效 的 解决 了 代理 的 电池 能量有 限 的 情 况 文献 作 者 研 究 了 具有切 换拓 扑 的
2 G]
。
[
中 ,
般线 性 多 智 能 体 系 统 的 保成 本 的 共 识 问 题 其 中 考 虑 了 联 合 连 接 和 连 接 切 换 拓
一
扑 。 文献 [
2 1
]
中 , 作证提 出 了
一
种 分层 结 构 来 解 决 多 智 能 体 系 统 的 共 识 问 题 。
新方
案将代理分 为 几个 组 ,
每 个 组包含
一
个 关 于 组 内 代 理 的 所 有状 态 的 值 , 我们 称之
为组信 息 。 对 于 每个单独 的 代理 , 它 不 仅 接 收来 自 其 组 内 邻 居 的 代 理 信 息 , 还接
收来 自 其 相 邻 组 的 组 信 息 证 明 了 该 方 案 在 离散 时 间 和 连 续 时 间 。 内 都 能达到 全局
共识
。
在 共 识 策 略 的 收 敛性 问 题 上 , 在 多 变 的 复杂信道 中 , 时 变 连通 性 是 多 无 人 机
追 踪 网 络 面 临 的 主 要挑 战 之 文献 作 者 针 对 存 在 编 队 控 制 律精 度 低
收
22 ]
中
一
[
, , 、
敛 时 间 长等 问 题 设计 了 个 基 于 拓 扑 优 化 的 分 散共 识 来控 制 多 径 衰 落 信 道 中 的
一
多 无 人机 系 统 提出了 种 队 形 结 构 重构 方 案 和 种 传输 功 率 分 配 算 法 以 保证
一
一
,
,
3
北京 邮 电大学工学硕士学位论文
[ ]
。 , ,
赖 于 系 统 的 全局 知 识 来确 定 与 代 数 无 人机连通性 相 关 的 特征 向 量 设 计 了 种基
一
i , 。
中 ,
作 者提 出 了 基于懒惰和 渴望共 识 的 算法来 实现群 体范 围 的 数据共享 ,
采用单
的 最佳 发 射机选择 在 收敛速度 和 有 效载荷 成 本之 间 达成 个有 益 的 折 衷
文
一
一
, 。
献 作 者研 究 了 离散积 分 系 统 中 具有 非均 匀 非对 称 和 时 变 时 滞 的 多 智 能体
2 5
[ ]
中 , 、
, , 、
均 匀 和 时 变 延迟 的 情 况 下 也 能 实现 良 好 的 平均 共 识性 来测 量和 减少 通 信 时 延 , ,
。
层 面来解决这些 问 题
。
, , ,
略 能很 好地适应 资 源 的 分布 特 点 , 有效平衡 了 系 统功 率不 平衡 , 保证 了 功 率 不平
中 ,
器 网 络 中 节 点功率受 限 的 问 题 , 基于 O l fa t i
-
S ab e r 提 出 的 分布 式共识 滤波 算 法和
种 随 机 图 的 站 点 渗流模 型 提出 了 种 新 的 能 量有 效 的 分 布 式 共 识 滤波 算法
一 一
,
,
, 。
,
中 ,
作
, (
) 。 ,
。
多 无人机 网 络 中 的 网 络 能耗 问 题
。
在 用 强 化 学 习 解 决无人机 网 络 的 问 题上 文献 作 者提 出 了 种基于强
3
中
() 一
[ ]
, ,
, ,
[
。 , ,
中 , 为 了 支 持动 态用 户 分 组 并 为 网 络 设 计 带来更大 的 灵 活性 , 作者利用 深度
强化学 习 的方法 ,
联合 设 计 了 无 人机 的 轨迹和 功 率 分配 , 以 服务 于 静态 非 正 交 多
4
第 章 绪论
一
时 也强调 了 些有待解决 的 研 究 问 题 文 献 中 作 者 通 过 联合 考 虑 通 信 覆 盖 率
一
[
3 4]
。 ,
、
、 , ( ) ,
。 目 ,
,
目 前 没有研 究讨 论基于 共识 策 略 的 多 无 人机 网 络及 多 无 人机 的 动 态 规划 问 题
。
1 . 3 论 文 主 要 内 容 及创 新 点
本论 文 的 研 究 内 容及 研 究框 架 如 图 所示
:
绪论
背 票 及 w 穷現 状 遲 研
寺
语究 内 容
^aai issi 銳
習
纖
| [ I 丨
、 i
i
点 主 要 毯 新產 刽 新 点
J
f
 ̄
:
1 L :
v ? y ? f ?
.
1
k
I
?
炉 叫 提给了
氣 提 s 了
—
粋当
网雜
爲 P 白 子亲合
%M w l|f 普子 公 審| 分碰
图
n
:
S 的 算 法 移 劫 M A D Q N 了 改变 网
? m s 7 3
l
j p通
人 D
t
0ON 茨
m mm 2 5 a S?i
妄
^
占 部宝 择六 S
I V =r
i ?
以
釣 中 继 分 髮蔡 合
^
给 鍾 元人 机 mjm
.
m S 旗 緊!
々j / 3
英
 ̄  ̄
 ̄  ̄
 ̄  ̄  ̄
 ̄  ̄
I r 1 I 1
I
i
?
图 l
-
i 研 究 内 容及框 架 图
在 多 无人 机 的 追踪场 景 下 ,
无人机之 间 准确 、 及 时 的 信 息 交互 是 准 确 跟踪
目
标 的 关键 , 其 中 分 布 式 协 同 估 计 方法 越来 越 受 到 人 们 的 重 视 ,
多 智 能体共识算法
是其 中 的 种 重要方法 本文主 要 研 究基于 共识 策 略 的 多 无人机组 网 通过加 入
一
, ,
中 继无人机 、 优 化 中 继无 人机 的 部 署 与 轨迹 、 优 化追踪 无 人机 的 功 率 分配 、 优化
追 踪无人机轨迹等 多 种 方案 通过 改变 整个追踪 网 络 的 网 络 连通 度 来对整个 网 络
,
进行优化 ,
从而 实 现在追踪场 景 下 对 目 标 的精确共识和 追踪
。
5
北京 邮 电 大学工学 硕士学位论文
a
) 本 文 以 增 减拓 扑边 的 方 式 改 变 网 络 连 通 度 的 主 要 贡 献 如 下
:
提出 了 个新 的 网 络框架 将 中 继 无 人机作 为 个新 的 节 点 部 署 到
一 一
1 .
,
多 无 人 机 追 踪 网 络来 改 变 当 前 网 络 拓 扑 结 构
。
提出 了 种基于 D QN 的 算 法 来 获 得 中 继 无 人 机 最 优 的 初 始 位置
一
2 .
。
提出 了 种 当 追 踪 无 人 机 开 始 追踪 移 动 时 基 于 D QN 算法 的 中 继无
一
3 .
,
人 机 轨 迹 规划 方 案
。
b) 本 文 以 增 减拓 扑 权 重 的 方 式 改变 网 络 连 通 度 的 主 要 贡 献 如 下
:
提出 了 种基于 MAD Q N 算 法 的 多 无 人 机 轨 迹 和 功 率 分 配 联合 优 化
一
1 .
方案
。
由 于联合优化 问 题 的 非 凸 性 提出 了 种 随机 博弈 的 建模方式 并用
一
2 .
,
M AD Q N 算 法求 解 该 问 题 的 最 优策 略
。
最 后 本 文 以 图 论 的 角 度 分 析 了 网 络 共 识 及 网 络 连通 度 , 并 分 析 和 验证 了 以
上 改变 网 络 连通度方案 的 有 效 性
。
1 . 4 论雄构 安排
本 文 针对 多 无 人 机 追 踪 场 景 下 的 网 络共 识 、 无人机能 效 问 题进行 了 研 究 ,
通
过对 共 识 收 敛 时 延 的 影 响 因 素 分 析 及 对 多 无 人 机 组 网 场 景 的 建 模 分 析 了 追 踪 场
,
景 下 无 人 机 系 统共 识 及 能 效 优 化 的 方 向 并 提 出 了 相 应 的 策 略 。 全文共分为五章
,
结构 安排如 下
:
第 章 绪论 本 章 首先对论 文 的 研 宄背 景进 行 了 介 绍 内 容 包 括 多 无人 机
一
: 。 ,
集 群 追踪 网 络 的 概 述 基 于 共 识 策 略 的 分布 式 协 同 估 计在 追 踪 网 络 中 的 研 宄 及 研
、
宄意义 进 步 对 国 内 外 研 宄 现状进行 了 详细地介 绍 阐 述 了 本文 的主要研究
一
。 , 。
工 作 内 容及 相 应 的 创 新 点 。 最后 说 明 了 论文 的 结 构 安排
。
第二章 : 基于 D QN 算 法 的 中 继无人机部 署 与 轨迹 规划 方 案 。
本 章 详细 介 绍
该方案 中 我们 提 出 了 种 通 过部 署 中 继 无 人 机来 改 善 多 无 人 机 追 踪 网 络 的 连 通
一
度 和共识 性 能 的 方法 。 我 们 将 部 署 中 继 无 人 机 的 过程 分 为 两 个 步 骤 。 首先 , 提出
了 基 于 D QN 的 部 署 算 法 来 获 取 中 继 无 人 机 的 初 始 位 置 , 优化 了 追踪 网 络 的 能量
消 耗和 共识 收敛时延 。
其 次 在追 踪 无 人 机 的 运 动 过程 中 我 们 提 出 了 基 于
, , D QN
的 中 继 无人 机 轨 迹 规 划 算 法 。 仿 真 结 果表 明 , 与 现有算法相 比 , 基于 D QN 的 算
法 具 有 更 好 的 性 能 同 时 验 证 了 我们 的 方 案 能 有 效 地 提 高 了 多 无 人 机 追 踪 网 络 的
,
共识 成功 概率 , 降低 了 多 无人机跟踪 网 络 的 中 断概 率
。
6
第 章 绪论
一
第三章 : 基于 M A D QN 算 法 的 多 无 人机 轨 迹 和 功 率 分 配 联合优 化 方 案 。
本
章 详细 介绍 了 改善 多 无人机之 间 信 息共 识 收敛时延 以 及 多 无人机 能效 的 第 二 种
策 略方 案 在 该方案 中 我们 提 出 了 种 联 合优 化 多 追 踪 无 人 机 轨 迹 及 每架 无人
一
。 ,
机 功 率 分 配 的 方法 结 合 多 代 理深 度 强 化 学 习 算 法 通过在 定 范 围 内 限制 追踪
一
, ,
无 人 机 的 轨 迹 并 且 学 习 最 优 的 功 率 分 配 方 案 来优 化 追 踪 网 络 的 能 量 消 耗 和 共 识
收敛 时 延 。
仿 真 结 果验 证 了 我 们 的 方 案
。
第四章 :
多 无 人机 网 络 中 共 识 收敛 速 度 分 析 , 本 章 详细 介 绍 了 影 响 多 无人机
之 间 信 息 共识 收敛 时 延 的 影 响 因 素 并且详细 分析 了 前 两章 提 出 的 方案之所 以 能
,
提 升 和 改 善 共 识 收敛 时 延 的 具 体 原 因 最 后 进 行 了 仿 真 验 证 了 我 们 相 应 的 分 析
。 ,
。
第五章 : 总 结 与 展望 。
本 章 对全 文 所研 宄 的 全部 工 作 进 行 了 总 结 , 同 时对未
。
,
7
北 京 邮 电 大学工学 硕 士学位论文
8
第二 章 基于 D QN 算 法 的 中 继 无 人 机 部 署 与 轨 迹 规划 方 案
第 二章 基于 DQN 算法 的 中 继 无 人 机 部 署 与 轨迹规划 方 案
杂 接 收到 的 信 息可 能会有 定的时延
一
,
。
本 章 介 绍 了 改善 多 无人 机之 间 信 息 共 识 收敛 时 延 以 及 多 无 人 机能 效 的 第
一
。 ,
来 改 善 多 无 人 机追 踪 网 络 的 连接度 和 共 识 性 能 的 方 法 首 先 针 对 多 无 人 机 追 踪 场
。
景 , 我 们 建立 了 系 统模 型 , 其 中 包括部署模型 、 信道模 型 、 共识 能 耗模 型 以 及 共
-
。 , ,
识 时 延 和 能耗 的 中 继无 人 机 的 轨迹部署 方案 主要 分为两个个阶段 阶段
当
一
。 , :
部署 。
最后 通过仿 真对我 们 的 方 案进 行 了 验证
。
2 . 1 系 统模 型
2 1 . . 1 部署 模型
Re i a yU AV
T r a c k i n gU AV
尤
.
贫 f
(
之
十
(
、
r
。
。
以
X 丄 T
。
'
'
'
j
'
\ 4
i Y
、 ?
_ 、
\
、
\
■
K
^
!
、
?
-
匕
'
、
r
VV
n
T a c k n gt a g e t ,
 ̄
 ̄
r r 、
i
1
i
C o n t r o c e n
l
t e
r
图 2 -
1
部署场 景 图
=
2
■
1 . . . 。 ,
,
[ }
9
北 京 邮 电 大 学工学 硕 士 学 位论 文
V ;; 。
应 的 追踪 目 标 ,
并将追 踪 信 息 传输 给 相 邻 的 无人机 , 以完 成信 息共识 。
本文假设
追踪 目 标是 随机移动 的 , 所 以 追踪 无人机 的 轨迹 也 是 随 机 的 。
中 继无人机则 根据
追 踪无 人 机 的地理位 置 和 当 前 网 络 的 性 能 需 求 飞 到 相 应 的 位置 , 以 适应和 改 变 当
式 如图 所示 是 我们 的 场 景 部署 图 我们 假设有 个 中 央控制 中 心 可 以 收
一
2
-
。 1 , ,
合适 的位置
。
, -
一
-
/\
一
一 ?
一
产 V
?
-
一 一
图 2 -
2 无人机 网 络拓扑 图
该 系 统 中 所有 无 人 机之 间 的 网 络 拓 扑 可 以 表示 为 个有 向 图 G
一
=
其 中 j= 表 示 为 该 图 的 邻 接矩 阵 ,
并 且 邻 接元素满 足 a 2 0
,
F
叫 表示 由 V 架追踪无人机和 架中继 无人机组成 的 集合 E 为每
一
=
1
,
2 T i? ,
对节 点 之 间 边 的 集合 ,
节 点 的 邻 居节点集合/ , 可 以 表示为
其中
:
l
,
v ,
v e
£
J)
,
(
v ’
^ 2
= -
1
(
)
\
0 , o th e rs
2 . 1 . 2 信道 模型
本文 假 设 网 络 的 传输带 宽为 6 Hz , 时间间隔 T 被划 分为 T V
,
个时隙 其 中 每个
。
A M =  ̄  ̄
n (2 -
2)
-  ̄  ̄
r n
… …
,
,
r1
小 W W十乂
r
+
-
L J
a J
其中 《 表示 时 隙 ,
/
?
。
表示在 名 =
l m 时 的信道系数 , 其中 名 为 固 定 常数
。
2 ' '
d [
? ]=
y
x [
ri
\
-
[
?] +> [
? |
-
乃 [
?] 表示在时 隙 3 下 无人机之 间 的 距离 。
考
y
j\ ] ^ ]
,
]
_
1
0
第二章 基于 D QN 算法 的 中 继无人机部署 与 轨迹规划 方案
虑使用 同 信 道 资 源 的 多 个无 人 机之 间 存 在 干扰 因 此通过信道建模可 以 计算
一
出 每 条 链 路 的 相 应 的 仰V 可 以 表 示 为 i?
:
1 2 ,
… …
,
N t (
2 -
3
)
匕物々 [ 啦 W 々
+
?
其中 凡 为无 人机 的 传输功率 / ,
& 是对无人机 产 生干涉 的 无 人 机 /
_
/ 的 传 输功 率
,
4
=
5#。 ,
其中 5 , iV
。
性高斯 白 噪声 ( AW G N ) 的 功 率 谱 密 度 当 两 架 追踪 无 人 机 之 间 。 S IN R 满足 %
>
%
时 , 表 示该无人机 和 无人机 ;
_ /
之 间 可 以 进 行通信 ,
以 此类推 , 可在追踪无人机
之 间 建立 网 络拓 扑 其 中 & 表示满足可通信 范 围 , 内 S I NR 的 最小值 为 固 定常数 ,
。
在每个时 隙 中 ,
无 人机 的 有 效平 均 数据 速 率 可 以 表 示 为
f
:
丄 V
f
TA
n=l
[
n
\ 上 N
t
n=
\
1 〇g
z + [
W
D (
2 4)
_
基于 获 得 的 平均速率 , 我们 可 以 计算得到无人机 和 无 人机 f
_ / 之 间 的 通信 时
延
:
= =
T _
^
- (
)
J
B l og
2
l + r
n
(
i
[ }
i
)
其中 £ 表示每 架 无 人 机每 次共 识 需 要传 输 的 数据 包 的 大 小 我们 假 设其为
个
一
>
。
s
固定 的常数
。
2 . 1 . 3 共 识 能 耗模型
-
无人 机之 间 所有 追踪信 息 交 互所 需 的 共识 时 间 和 飞 行过程 中 的 能 量 消 耗在
追踪 场 景 中 至 关 重 要 。 在这种 情 况 下 , 多 无 人 机 通 信 网 络 中 必 须 考 虑共 识 能 耗模
型 。 共 识 能耗模型可 以 定义为
:
F^ T^
^7 2 6)-
(
i )
其中 ¥ 和 G 为模 型 系 数且满足 A
+ < =
2
1 。 7
;
和 & 分 别 为 离 散 算 法共 识 模 型 和 能
耗模型 。
Y 表示用 于调 整能耗 比 例 的 能耗 系 数 。
p 时 防止 分母为零 的 系 数
。
2 . 1 . 3 . 1 离散共 识算法 模型
在 分 布 式 多 无人机追踪 网 络 中 , 网 络 连 通度 和 通信 时 延 会 引 入 误差 , 其将 会
严重影 响 共识 结 果 的 收敛时延及 时 间 。 当 无人机 和 无人机 f
_ / 之 间 出 现通信 时 延
& 时 , 离散动 态 时 间 共 识 算法 的 表达式 如 下 所示
:
1 1
北 京 邮 电 大 学工 学硕 士 学 位论 文
元 (
, + 1
)
=
x
,
(
,
)
+
y
以
en
,
[ 6? ;
(
卜
5 )] (
2 7)
-
其中 i
,
被 叫 做 无 人 机 的 值 本 文 将 其 定 义 为 追 踪 无 人 机 的 位 置信 息
f , f 。
% 为无人
机 和 无 人 机 y 之 间 的 共 识 权重 系 数
f , 当 ( ^ 2
;。?
时 ( 后 文 我们 会 专 门 定 义 U
,
所 有无 人 机 的 值将 逐渐达 成共 识
:
li m i , (
/
)
=
l im
l
 ̄
^^
co n
^ (
/
) (
2 8 -
)
表 示 多 无人 机 追 踪 网 络 的 共 识 收敛 时 延 如 果 无人 机 之 间 存在 通 信 时 延 。
,
则 无人 机 将会 对 来 自 其 他 无 人 机 的 延 迟 信 息 进 行 融 合 , 这 将 给无 人机 的 值 , 也就
是 无 人 机 的 位置 信 息 带 来 误 差 。 除 此 之外 。 如 果 时 间 延迟足够 大 , 上 述 方 程更有
可 能 不 收敛 。 通过 [
3 5] 的 分析和证 明 , 我们 可 以 得到 多 无人机 网 络 中 容许 时延 的
最大上界 , 以 满 足 方程 收 敛 的 条 件
:
V
点 (
2 9 '
)
其中 ?6 )
表 示 多 无人 机 网 络 图 G 最大 的 出 度 个 数 , 可 以 被计算
:
d娜 {
〇
、
=
% 〗
(
2 -
1 0
)
除此之 外 从 的 分析和 证 明 可 知 不 同 的 网 络 拓 扑 结 构 会 导 致共 识 算 法 的
35]
,
[
,
收敛时延也不 同 。 其 收敛 时 延 可 以 表 示 为 ; 被称 作 拉 普 拉 斯 矩 阵 的 第 二 小
特征值 , 也 称为代 数 连 通 度 。
其中 i 是图 (? 的 拉 普 拉 斯矩 阵 。 因此 ,
多 无 人 机追
踪 网 络 的 共识 收敛 时延 可 以 被 定 义为 [
36 ]
:
^
+ " l
^ ^ 2^ A
K )
 ̄
^
f
1
) %
-
l N
2
^ c L
-
Ar
l c k
-
\
( 1 ( 1
2 2
( ) { )
其 中 c# c
2
为正常数 ,
&e (
0 ,
l
)
, 《:
2
e
〇 ,
〇〇
)
。
加 入 中 继 无 人机 后 ,
因 为存在前后场景 的变化 , 我们 需 要计 算 引 入 这种 差 异
化而带来 的 系 统化 的 提升 , 因此 , 离 散共 识 算 法 模 型 可 以 表 示为 有 中 继 无 人 机 和
无 中 继 无人机 的 共识 算法 的 收敛 时 延差
:
C
=
S
? = 1
(
r
— (
?
)
-
7咖
W ) (
2 -
1 2)
其中 是 中 继无人 机 加 入 追 踪 网 络 后 的 共 识 收敛 时 间
。
1
2
第二章 基 于 D QN 算 法 的 中 继 无 人 机 部 署 与 轨 迹 规 划 方 案
2 1 3 2
. . .
能 耗 模型
低于推进能耗 因 此本 文 将 不考 虑 这 部分 本 文 假 设 所有无 人机 以 恒 定 的 高度
一
, 。
飞行 具有恒 定 的 速度 V 水平 飞 行 期 间 推进消 耗 的 功 率 由 关 系 式 给出
3 7]
[
办 , ,
:
a
+ f
3
>
i v =
C V 2 -
1 3
( ) n,
(
)
v
空气 阻力 所需 的功率 。
^ 和 ^ 与 无人 机 和 环 境 的 许 多 参 数 有 关
^ , 计算如 下
:
0
^ \ pCS t
(
2 -
1 4)
A 2 Wf
2
,
,
^ rj S
{ )p
t
其中 ,
p 和 C 分别 表示 空 气密度和零升 力 阻力 系 数 。
& 是无 人 机 的 参 考 区 域 。
e
是奥萨 瓦尔 德效率 。 7
7, 和 F 分 别 是 无 人机 的 机 翼 展 弦 比 和 重 量 。 因此 , 中 继无人
机消 耗 的 推进 能量可 以 由 以 下 公 式得 出
:
^
v ,
n =
P v =
dr (
2 -
1 6
)
( ) t ( )
|
p
ER
fE v n 2 7)
- -
1
day
r { ,
)
(
?=1
备注 : 由 于 所有 追 踪 无人 机 的 追 踪 轨 迹不 在 我们 的 优 化 目 标范 围 内 , 因 此这
里 只 考 虑 中 继 无人 机 的 飞 行 中 推 进 能 耗
。
2 . 1 . 4 中 断 共 识概 率 模型
-
2 . 1 . 4 1 .
中 断概率 麵
在 每个 时 隙 的 追 踪 过 程 中 , 由 于 无 人 机 飞 行轨 迹 的 不 确 定 性 , 无人 机 之 间 的
个无 人 机 无法 与 任 何 其 它 无 人 机通 信 时 会出现 个非连接 的 图 因此 中断
一 一
, 。 ,
概率模 型 可 以 被 定 义 如 下
:
1
3
北 京 邮 电 大 学工 学硕 士 学 位论 文
户
及 H 2 8
= -
1
(
)
_
, 、 f l ex is t d i s c o n n e c te d grap h
WW
=<
(
2 -
1 9)
。 —
其中 表示 系 统在 第 《 个 时 隙 中 是否 处于 中 断状态 。
判 断多 无 人机 中 断 的
条 件 是 在 当 前 网 络 拓 扑 下 是 否 存 在连接 图 。
如 果存在 , 则 系 统 处 于 连接 状 态
,
Au ta
ge
的 值为 〇 。
如 果 不存在 , 则 系 统 处 于 中 断 状态 ,
A ut a
ge
的 值为 1
。
2 . 1 . 4 2
.
共 识 概率模型
从 网 络拓 扑 的 角 度 多 无人机 网 络 图 中 存 在 棵 生 成树 且 通 信 链 路满 足 时
一
, ,
说 , 图 中 必 须存在
一
个全局 可达 点 。 因此 , 共 识 概率模 型 可 以 定 义 如 下
:
^cons W
2 2 0)
 ̄
-
en s us c on se ns us ( (
)
、
f l c o n s e ns us c on ve rg es
W
,
C—
=
2 2 _
1
(
)
〇 e ls e
|
其中 , 表 示 系 统 在 第 《 个 时 隙 中 是 否 处 于 共 识 状态 判 断 多 无 人 机 系 统 是
。
否 共识 的 条件 取决于 在 当 前 网 络 拓 扑 和 时 延 下 网 络 能否 收敛 。 如果收敛 , 系 统则
处于共识状态 。 的值为 1 。
如 果 不存在 , 则 系 统 处 于 非共 识 状 态
。
的 值为 0
。
2 2 .
问 睡构建
本节 中 , 对 多 无人机 追 踪 网 络 中 的 共 识 、 能耗折 中 优 化 问 题 ,
以及追踪过程
中 的 网 络共识 、 中 断 概 率 的 优 化 问 题 分 别 做 了 详细 的 理 论 分 析
。
2 2 1
. .
共 识 收 敛时延和 麟 的 折 中
在 多 无 人 机 追 踪 网 络 中 不 同 的 网 络 连通 度 会 严重 影 响 共 识 算 法 的 收 敛 时 延
,
( 具体在第 四 章分析 ) , 网 络 连通 度 越 大 , 共 识 算 法 的 收敛 速 度 越 快 。 这种 代 数
连通 度 可 以 通 过 改 变 边 的 权 重 来控 制 , 也 可 以 通 过 增 加 和 删 除 边 来控 制 。 然而
,
NP 。 ,
中 通过 加 入 个 新 的 中 继无人机 可 以 有 效 地 改变 网 络 的 拓 扑 结 构 实现增 加
一
, , ,
和删 除边 的 目 的
。
1
4
第二 章 基于 D QN 算 法 的 中 继 无人机部 署 与 轨迹 规划 方 案
人机 网 络 的 能量消 耗 ( 因 不 考虑 追 踪 无 人 机 的 轨 迹优 化 问 题 ,
所 以 只 考虑 中 继 无
人机 的 能耗 ) , 能耗 问 题依 旧 是 多 无人机系 统 中 需 要研 究 的 重要 问 题
。
首先 ,
本 文 假 设 所 有 追 踪 无 人 机在 初 始 时 刻 都 是 静 态 的 。
在这种情况下 ,
我
们希 望找 到 中 继无 人机 个最 优 的 初 始 位置部 署 使 得 我们 的 追 踪 网 络 共 识 算法
一
m ax F 2 22
-
n (
)
s - tc l r d > 0^
i
j
c2 : t < d
r
t
每 架 追踪 无 人 机 之 间 发 生 碰撞 。
[ 表 示 中 继无 人 机 在 每 个 时 隙 中 的 移 动 时 间 ,
因
此 , c2 定义 了 中 继无人机 的 移动 时 间 范 围
。
2 2 2
. .
織 网 络 中 的 共识 和 中 断概率
当 追 踪 无 人机 开 始 移 动 时 , 追 踪 网 络 的 拓 扑 结 构 是可变 的 , 这将 导 致 现 有 的
一
些 通 信 链 路发 生 频 繁 的 中 断 。
因此 , 无人 机 网 络 的 连 通 度 很 容 易 受 到 影 响 。
这
会影 响 共识 算法 的 收敛 时 延 甚 至 导 致 完 全 不 收敛 所 以 我们 需 要找 到 条中继
一
, 。
无人机 的 轨 迹 来 解 决 这 些 问 题 。 因此 , 该 问 题可 以 被表述为
:
^O u ta (
2 23  ̄
)
ge
眶 户應 娜 2 24 _
(
)
tcl d D^
s - i
^
c2 : t < d
r
t
2 3 .
基于 D QN 的 中 继 无 人机 初 始 化 部 署 算 法
在本节 中 , 当 我们 随 机 初 始 化 所 有 追 踪 无 人 机 的 初 始 分 布 后 , 我们 将利 用
D QN 算法 , 来找 到 中 继 无 人 机 的 初 始 部 署 , 以 优化 无 人 机 网 络 在 初 始 阶 段 的 共
识 收敛 时延和 能耗 的折 中 问 题
。
1
5
北 京 邮 电大学工 学硕士学 位论文
2 3 1 D QN
. .
算法
首先 学 习 是 强化学 习 算法 中 的 种 基 于 值 的 算法 即构造
一
个 表来
一
,
Q ,
Q
存储 Q 值 , 然 后 选 择 能 够 获 得最 大 回 报 的 动 作 。 与 Q 学习 相 比 , D QN 的 主 要 思
想 是 用 深 度 神 经 网 络 模 型 来代 替 Q 表来实现 智 能体 的 状态估计
。
此外 , 为 了 准 确 有 效地训 练和 更 新 Q 网络 , D QN 算 法主 要表 现 出 两 个重 要
的区别 : 经验重放和 Q -
tar
g et 网络 。 D QN 采 用 经验重 放 机 制 来 维 护 队 列 , 保留历
史 经验 在每 步中 D QN 都使用 个来 自 经 验 重 放 缓 冲 区 的 小 批 量数 据 来 存
一 一
。 ,
储来 自 代 理 和 环 境 之 间 交 互 的 传输 样 本 。 由 于 经验重放记 忆 独立 于 神 经 网 络 ,
它
Q tar
g et
-
, 。 ,
坏 相 关性 的 机 制 。 使用 Q
-
tar
g et 将使 D QN 中 的 两个 网 络 具有相 同 的 结构 , 但参
数不 同 。
Q 目 标 的 更新将落 后 于评 估 网 络 。 对评 估 网 络 进 行 多 次 更 新 , 将评估 网
络 的 参数 分配给 标 网络 实现 标 网 络 的 更新 这样 在 定程度上 降低 了 当
一
目 , 目 。 ,
前 Q 值与 目 标 Q 值之 间 的相关性 , 提高 了 算法 的 稳 定 性
。
2 3 2
. .
算法模雖义
在我们 的 D QN 模型 中 , D QN 用 于 控 制 中 继 无 人机 的 飞 行 。 中 继 无 人机将 作
为
一
个智 能体 , 可 以 定 期 收集 追 踪 无 人 机 网 络 的 状态 , 并通过与 多 无人机 网 络 的
环 境交 互 , 使用 D QN 算法来确 定 其 最佳 行动 策略 , 即 飞 行轨 迹 , 以 在 决策步 骤
中 来最大化观察 到 的 回 报 r 在每个步骤 中 中 继 无 人 机 从状 态 空 间 中 观 察
一
。 f ,
,
,
Q 。 ,
态 、 行动 和 奖励
:
1
) 状 态表 示 中 继 无 人 机 由 水 平 位 置 和 垂 直 位 置 两 个状 态 组 成 被 定 义 为
: ,
:
K、 ,
凡) , 其中 f 为 中 继无人机 的 水平平面坐标 , 状态 空 间 能 够 被表
示为 \ :
{
0, 1 …
& 丨
, 7, :
{
0 ,
1 . . . ;
^ }
, 10 和 & 为特定 区域 内 最大 的 位 置坐
标 每 次试验 中 每 架 中 继 无 人 机 的 初 始 状态 位置 都 是 随 机确 定
一
。 , ( )
的 ,
更新 Q 网 络 则 由 中 继无人机 的 初始位置 、 追 踪 无人 机 数 量和 追 踪 无
人机 的 位 置 决 定 。 当 每 架 中 继 无 人 机 离 最 佳位 置 越 近 , 更 新速度 越快
。
2) 行为空 间 : 这 些 动 作 用 于 改 变 中 继 无 人 机 的 行 为 以 响 应 每个 时 隙 处 的 状
态 我 们 假 定 中 继 无人 机 的 行 动 由
和
°
。
?
飞 行 方 向 必 <0 ,
3 60
; |
,
必 e Z
飞 行距 离 元 组成 在每 次实验 中 基于 时 隙 ”
一
% : , ,
的 当 前 状态 \ 和 基于 Q 网 络 的控制 策略 , 中 继无 人 机 开 始 执 行 动 作 a 以
,
响 应状态 4 。
最优动 作 使多 无 人机 网 络 的 平均 回 报最大化
。
3
)
奖励 :
奖励 定 义 了 中 继 无 人机 部 署 方 案在 当 前状 态 s 对时隙 n 中 所采 用
1
6
第二章 基于 D QN 算 法 的 中 继 无 人机 部 署 与 轨迹 规 划 方案
的动作 a 的影响 。 在我 们 的 模 型 中 , 我 们 使 用 添 加 中 继 无人 机 和 未 添 加
中 继 无 人 机 的 整 个 网 络 的 共 识 收敛 时 延 差 值 和 中 继 无 人机 消 耗 的 能 量
,
这 两 部分 的 加 权和 来 量化我 们 的 优 化 目 标 , 基于 以 上 的 优化 目 标来确 定
最优 中 继 无 人 机 的 位 置 , 因 此 我 们 的 奖 励 方程 可 以 通 过 如 下 这 种 形 式 计
算得 到
:
(
2 25)
-
來 , W )
+ C
2
如
,
( ‘ (
:
)
n
=
l
,
2” "
,
N
t
2 3 3
. .
算 法 流 程描 述
算法 2 -
1 基于 D QN 的 中 继 无 人 机 初始 化 部 署 算 法
1 :
随 机初始 化 多 无 人 机 追 踪 网 络 分 布
2 : 初 始 化 经 验 回 放 内 存 马 和 !^
3 :
初始化两个 行 动 值 函 数 -
糾 和込 ) ( w2 |
巧 )
, 其中 沒 为 随机权重
4 : 初 始 化 两 个 行 动 值 函 数 么# # -
,
% %和 其 中 权重
沒 =
0和
=
6 >
6 >
1 2
2
5 : fo r e
pi s o d e
=
1
,
M do
6 :
在 特 定 地 理 区 域 内 随 机 初 始 化 中 继 无人 机 的 位 置 坐 标
7 : fo r n
=
1 ,
N do
8 :
基 于 概 率 £ 选择动 作 ■
和
否 则 选择 \ 狀容 〇 和 〇 ^ 02
^0
'
严0
9 :
=
1 11 > ? ,
6 >
〇 11 5 £1
1 ( 1 |
1 ) 2” 2 (
,
2 |
)
1 0 : 执行动 作 a 和 a l n 2? , 观察奖励 r
? , 更 新状 态 ^^
1 1 :
储 存 转 移 样本 (
s
? ,
人 ,
^^ )
放入 马 和 (
* ?
? , ,
r
n ,
\+ 1
)
放入 D
2
1 2 :
从 ^ 和 仏 中 随 机 抽 取 小 批量 转 移 样 本
和
S a r ,
S
,
2
,
j
+l
{ j j j
)
1 3 :
令 凡 .
=
r
7
.
+,m x 2_ n (
s
M ,
a ; W *
)
^
1
7
北 京 邮 电大 学 工 学 硕 士 学 位 论 文
+ / m ax
a^
=
T
y 2 J
j
i
1 4 :
对 ? -
!
2 1
( \ ,
气^ ) )
和 >
;
"
-
0 2
( 5
.
,
% 丨
沒
2 / ) )
利用 沒
1
和 沒 米用
2
,
( (
_
梯 度 下 降 的 方法最小 化损 失
1 5 :
令 心 =
?+
1
1 6 :
每 C 步更新相 应 的 目 标网络 :
和
1 7 : End fo r
1 8 : End fo r
基于 D QN 的 中 继 无人机最 优初 始 部署 算法 如 算法 2 -
1 所示 。 D QN 模型主要
由 两 部 分 组成 : ( 1 ) 两个深度 神 经 网 络 ( DNN ) 和 ( 2 )
Q
-
学 习 决策 模 型 。
神经
网 络可 以 解决 高维动作 空 间 的 问 题 。 通过拟 合 函 数 而 不 是 Q 表 来生 成 Q 值 ,
我
们 可 以 得到 相 似 的 状态和 输 出 动 作 。
因此 , DN N 对复杂 特征 的提取有很好 的 效
果 同时 D QN 有 个类 似 于 的 更新公式 可 以 最大化折扣 长 期 回
一
。 ,
Q
-
l e ami n g ,
报 , 如 下 所示
:
Q { s^ an )
=
E S
n +i
L
r+ y msx
〇
n+l
Q ( sn + l
,
a
n+x )
-
(
2 26)
-
其中 A 表示在 时 隙 n 下 的 的 当 前状态 和 行 为 。 5
?+1
, l
f
?+ 1
是下
一
个状 态 和 动
作 。
' 是 状态 8 的 奖励 , 0
分 < 是折扣 因 子 1 。 当 ;
/
趋于零时 , 中 继 无 人机 主 要
考 虑 即 时 奖励 。 当 / 趋于 1 时 , 中 继 无 人机 主 要 考 虑 未 来 的 奖 励
。
在 我们 的 机 制 中 , 中 继无人机 的 动作 由 飞 行方 向 和 飞 行距 离 组成 。 因此 ,
在
我 们 的 设 计 和 实现 中 , 我们 使用 两个相 同 的 D QN 模型 分别对它 们进行训 练 。
它
们 可 以 表示为 两 个 行 动 值 函 数 -
批 和2 ) 2 Cs ,
l
f
2 |
内) 。 相应的 目 标 网络可 以
表示为 和 2_ 屮?〇 :
。 在 每个 D QN 模型 中 , 我们使用
一
个
两 层 的 全 连接 的 神 经 网 络 第 层有 个神 经 元 第 二 层 有 个 神 经元 R eL U
一
。 20 , 20 。
用 作激活 函 数
。
本 。 经验 回 放缓冲 区 以 大 小 D 初始化 。 在 每个 时 隙 ,
观 察 到 的 状态 、 动作 、 奖励
和下 个 状 态 被存 储 到 该 缓 冲 区 中 然 后 从 该 缓 冲 区 中 随 机 抽 取 小 批状态 序 列
一
一
来更 新 D QN 网络 。 在 具 体 的 更新 过 程 中 ,
我 们 使 用 梯 度 下 降法 来 更 新 权 重 参 数
和内 经过 定 次数 的 迭代 后 Q 込 网 络 的 参 数被 复 制 到 网络
一
3 。 ,
,
。
我们 使用 最 优 a a
_
网 络和 Q 网络 的 最 小均方误差来定义损 失 函 数 。
两 个损 失 函
数 与 ⑷ 丨 厶 ^^ 都 可 以 表 示 为
:
1
8
第二 章 基 于 D QN 算 法 的 中 继 无 人 机 部 署 与 轨 迹 规 划 方 案
2
L
⑷ =
£
[
(
么一
-
的 ^ 丨 ” ,
) )
]
(
2 27)
-
1 >
2 ( 爲 )
能够 以 相 同 的 方式被获取 , 是 目 标网络的值 , 可 以 被表示为
:
k
+ r m ax
a
2 (^ I + 1
,
? +1 丨 (
2 28-
)
\ n+\
能 够 以 相 同方式 被获取 ,
3 和 爲 能 够 通 过 两个损 失 函 数
和
利 用 梯 度 下 降来更 新 , 其可 以 被计算
:
⑷ 4 么_ \ 2
=
( ? ,
幻 ]
—
4以? ,
? 网 ▽# (? ? )
,
⑷ ]
(
2 29)
-
▽a 1 〇
9
2 )
能够 以 相 同 方 式 被 获 取
。
在 每个 时 隙 更 新 参 数 ^ 和 氏 后 , 行动 a 和 l n
都会停止 。 并 可 根据 贪 婪 算 法
进 行选择 , 即 在概率为 s 的 情况 下 随 机探索 动 作 , 并在概率 i
-
s 为 的情况 下 使用
序 陷 入 局 部 最优 值
。
1
9
北京 邮 电 大学 工学 硕 士学 位论文
2 3 4
. .
算 法 具 体训 练 流程
开始m
Z TZ
"
计算 当 前 的 网 L
机 的腿状 态
丨
中 觀人 謎
)
探素 ? 值来
动作
中 继 无人 t ms 动
i
m t到 麵 和下
一
个状态
I
得 到 織 样本 包 括当 献
,
态 離 麵 下 状态
、 、
、
一
和 是 否 终 止 搭 其存 储在 经
,
验池 中
丁
v
当经验池 中 的经验数垦大于
b a c h 大小 时
|
从 经验池
1
中
随 t ,
机 取 釋 匕 故 如 大 小的样本 计 一一
麵調一 。
训 每结采
算 当前 网 络 下 的实际 Q fi 开
?
— " ■ … … —
mm
图 2
-
3 D QN 训 练模块
图
20
第二章 基于 D QN 算 法 的 中 继 无 人 机 部 署 与 轨迹 规 划 方 案
步骤
一
:
开 始 进入 D QN 的模型训 练 , 设 置训 练 的 回 合数 为 5 00 轮 , 判 断是
步骤二 :
随机重置 中 继无人机 的 位置状态 , 状态空 间 能够被表示 为
x
r
:
{
〇 ,
l . . . ZD }
, yr :
{
〇 ,
l “ . ;
^ }
,
心和 }
^ 为特 定 区 域 内 最大 的 位置坐标
。
步骤三 :
判 断 是 否 完成每个 回 合 下 的 步骤训 练 , 步骤训 练值 设置为 500 步
,
, , ,
。
,
步骤 四 :
中 继 无 人 机 利 用 概 率 超参 数 ep s i l on 在 随机和 Q 策 略 间 选择 动 作 来
探索 环境 , 在 探 索 环 境 的 过程 与 环 境 进 行 数 据 交 互 , 该 数据 包 括 加 入 中 继 后 整 个
网 络 的 参数 , 如 每 条链路 的 相 应 的 信 号 与 干扰 加 噪 声 比 、 链路速率及 链路 时 延
。
飞 行距离 中 分别 选择特 定
°
动 作 的 选取 , 会在飞 行方 向 必 e
[
0 3 60
,
]
,
步长
。
步骤五 :
得到 与 环境 交互 的 参数后 , 通 过 奖励 公 式 得 到 相 应 的 奖 励 值 , 建立
, , 、 、 、
否 动 作 终 止 五 种 状 态 储 存 在 经 验池 中
。
步 骤 六 当 经验 池 中 的 经验 数 量 大 于 :
b at c h 的大小时 ( b at c h 我们 设置 为 5 00 )
,
从 经 验 池 中 随 机 取 出 b at c h 大 小 的 样 本 , 依 据 公 式
=
五
°
计算 当 前 网 络 的 的 Q 值 , 其中 ,
& 为在 状 态
^ 下 采 取 动 作 《 得 到 的 奖励 值 ,
/ 为折扣 因 子 , 我们 设 置为 〇 9 9>
.
, 如 果 训 练完毕 , 输 出 训 练模 型
。
2
1
北京 邮 电 大学工 学硕 士学位 论文
2 3 5
. .
算 法 具 体实 现 流程
迨 驗 人机 隨初 始化戀 初 始
*
化贿追驗人棚
布 在 初始化 的 时 隙 中 假定所有
,
,
追 齡的
v
追 駄 人 顯 络状 親 碰始 化的 时
隙 中 假定所 有 追 踪 无 人机 是静态 的 计 算 当 前
,
,
追 踪 无 人机网 络 的 网 络 状态 包 括 每条 链路的泪
,
应 的 信号与干扰 加 , ^ 比 链 路 速 率 及链路 时延
、
r
i
进入 D Q _ 除 模
mm D Q N v m
mm
'
龌棚 雛
?
中 继无人 _位 置
^ ^
得到 满 物 最従 中
继 无人 机祕 署 織
图 2
-
4 算法 1 实 现 流程 图
: ,
, , ,
无人机之 间 为 了 防止冲撞应满足相 应 的距 离 限制 , 距离 限制 为 20 米
。
步骤 二 进入 追 踪 无 人 机 网 络 状 态 初 始 化 模块 在 初 始 化 的 第 个时隙 中
假
一
: ,
步骤三 :
进入 D QN 的模型训 练模块
。
步骤 四 :
进入 中 继无人机训 练测 试模块 ,
随机初始 化 中 继无人 机 的 位置 ,
使
22
第二章 基于 D QN 算法 的 中 继 无人机部 署 与 轨迹规划方案
2 4
.
基于 D QN 的 中 继 无 人 机 轨迹规 划 算 法
。 ,
。
2 4
. . 1 算 法模 型定 义 及 流程
, 。
的 收敛 性 也 是我 们 需 要 考 虑 的 问 题
。
在 考 虑 中 继 无 人 机 的 轨 迹 之 前 我 们 假 设 所有 追 踪 无 人 机 的 轨 迹 采 用 随 机 游
,
和 飞 行距离 均勾 分布 在这种情况下 我 们 的 算 法可 以 根据
°
沒_ ^ 0 3 60
,
< ? ^
。 ,
[ 1
追 踪 无 人 机 的 运动 情 况 获 得 中 继 无 人 机 的 动 态轨迹 。 在每个时 隙 中 , 当 追 踪无 人
机开始 移 动 时 , 相 应 的 中 继无人机也会选择两个 动 作 % 和 ,
《
2 ?
, 包括 飞 行方 向 和
飞 行距 离 然而 对于 相 应 的 奖励 函 数 相 对 于 算法 我们进行 以 下 的 更 改
一
。 , , ,
:
r= F n (
n + 〇 n
)
+ C (
n
)
) [
稱
.,咖
=
2 3 〇)
"
來
(
=
-,
.
(
?
) 乂》 )
+^
2 /
[
^
E re l a
y
X
,
+〇
(
?
)
+ C
(
n
)
n
=
\
,
2 ,
. . ,
,
N
t
其中 0 ( 0和 是 多 无人机 系 统在第 n 时 隙 下 的 中 断和 共识 的 奖惩 因 子 , 具体
可定义为
:
2 0 0
'
/7
/ < I
=
1
0 U ta g e o ut a e
g
〇 n
〇 ? = =
u 2 3 -
i
(
)
( )
I
'
200 < I
^
o u,a
ge on
^ e
f 〈 广
,
J Ij f
0
一
一
Z ^
J ^ consen su
_
^ xj y
0 f C
'
C (
?
)
= <
i
con s en s us
=
C c o n s en su s
=
1
(
2 32)
-
2 0 0 C > C
f
v/ vr ^
cons en s us c o n s en su s
23
北京 邮 电 大 学 工 学硕 士 学 位论 文
算法 2 2 -
基于 D QN 的 中 继 无人机 轨迹规划 算法
1 :
随 机初 始 化 多 无 人机追踪 网 络 分 布
2 : 通 过 算法 1 初 始 化 中 继 无人机 的 位置
3 :
初始 化 两 个 行动 值 函 数 -
幻和込 ( ^2 1
沒2 ) , 其中 沒 为 随机权重
’
4 :
初 始 化 两 个 行 动 值 函 数 2_ & ? -
1 1
)
和 0_ 士 > 丨 |
^〇 , 其 中 权重
和& 0
2
=
2
5 : fo r ep i s o d e
=
1
,
M do
6 : fo r n
=
1
,
N do
7 :
更 新每 架 追踪 无 人 机 的 位 置 坐 标
8 :
基 于 概 率 s 选 择动 作 ? 和 a 2?
9 :
否 则 选 择a l n
=
a rw m ax
<
? 1 (¥, £1
1 丨
01 ) 和 =
a rg m a x g
2( A a
J A
)
aX a
2
1 0 :
执 行动 作 a 和 f
l
l n 2? , 观察奖励 /
?
? , 更 新状 态 & +
1
1 1 :
储存 转 移 样 本 (
■ ?
? ,
a l n , , j
?+ 1
)
放 入 和 (
〃
? ,
a2 ? ,
r
? , \+ 1 )
放入 Z
)
2
1 2 :
从 A 和 £ 中 随 机 抽 取 小 批 量转 移 样 本
>
S a ,
r s
j+ l )
, ,
2j
( j j
1 3 :
令 ^ :
=
r
; 一
'
( ? ,
a ;
⑷和
y2 J
=
r + x m ax
Q^ ,
s
+l ,
d2 e 2
j
\
[ J
)
1 4 : 对 凡
(
.
_
2 也 .
,
%凡 ) f
和 (
J2 厂 込 ( \ ,
? 丨
% 利用 3 和 A 采用
,
梯度 下 降 的 方 法 最 小 化 损 失
1 5 :
令 心 =
\+
1
1 6 :
每 C 步更 新 相 应 的 目 标网络
:
1 7 : End fo r
1 8 : End fo r
24
第二章 基于 D QN 算 法 的 中 继无人机部 署与 轨迹 规划方 案
2 4 2
. .
算法 具 体 实 现 流 程
初 始化所有迨踪 机 的
位S 利 甩 方案 m i 最
,
一
优的 中 缝无 人 机的 位暨
驗无人机移
臟 人机开娜 ^
 ̄
M
 ̄
^
人机移
达 待走
丫
5
SA D Q N 训 续植
块 得到 D Q N 练,
il 丨 I
mm
: :
I
输 出 中 蓬无人 机 的 ■ 试 中 _^人_
m
-
0
图 2 5
-
算法 2 实 现 流程 图
步骤 初 始 化 所有追踪无人 机 的 位置 利 用 算法 2 中 得到 的结果找 到 最
一
: , 1
优 中 继无人 机 的 位置
。
遵从 随机漫步 的 移动 模型 移动 步
一
,
。
中 继无 人 机 的 最 优 轨迹 部 署 ,
如 果没有达到 ,
则 进入 该 次移 动 下 的 D QN 模型训
练模块
。
, ,
: ,
继无人机移 动 步后 再 次进 入 追 踪无 人 机 移 动 模块
一
,
。
2 5 .
仿 真结 果 与 分析
。 ,
l 〇〇w x l 5 0w
25
北京 邮 电大学工学硕士 学位论文
。 2 -
1 。
的仿 真结果与 Q
-
学 习 和 随机部 署 算法进行 了 比较
。
2 5
. . 1 仿 真场 景
表 仿 真 参数 表
2
-
参数
描述
M
P
无人机 的 传输功 率
20dB m
B
^
1 MHz
N
追 踪 无人 机个数
4
y
g
p
信道 系 数
-
5 0dB
/
折扣 因 子
0 9
.
I
学习率
00 1
W
能量 消 耗 系 数
1 00
共识 系 数
0 95
.
能耗 系 数
0 05
.
2 5 2
. .
仿 真结 果 及 分 析
(
1
)
基于 D QN 初始化部署 算法 的 仿真结 果
图 2 -
, 。
观察到 , 与 Q 学 习 和 随机部 署 算法 相 比 ,
我们 的 算法可 以 获 得更 高 的 平均 回 报
。
图 2 -
7 显 示 了 中 继无人 机在 不 同 算法 下 寻 找 最 佳 位置 的 步骤 数 的 训 练测 试结 果
。
我们可 以看到 ,
与 Q 学 习 和 随 机部署算法相 比 , 我 们 的 算法可 以 用 更少 的 步骤
获 得更 高 的 回 报
。
h
一
… 一
—
60
- ■  ̄
— ?
Ra n d o m d e p oym ent
l
 ̄
-
80 J
| l ( l
l
■
.
: :
!
,
,
〇 100 2 00 300 40 0 50 0
q ^ l 〇 5 2 0 2 5 3〇
n u mbe r of t ra i n e p sod e
i { ste p o n e ) t est
r e ay
l
u a v ma v n g
t
st ep
图 2 6 -
不 同 算法下平均 回报比较图 图 2 7 -
不 同 算 法 下 中 继 无 人机测 试 步 数 比较 图
图 2 -
8 、 图 2 -
无 人 机 的 能 量 消 耗 和 多 无 人 机 的 共 识 收 敛 延 迟 差 与 奖励 函 数 解 耦 时 我 们 的 算 法
,
rn7 7^
l :
i
t
:
—
R a n d o m de p oy m e n
,
y
l
h t
| 一〇 .
|
j
h h
^
|
j
U
| \ /
I
A n / /
1
/
一
卜令 _
^
-
-
一
?
"
* "  ̄
<
>
"
'
" "
^< '
'
*
^
 ̄
#
" "
"
"
*
\
^
>
? <>
*
*
>
"
^ 1
'
'
'
^ #
一
1
c
普
\
?r
-
?
R i
a n d o m d e p o y m e n t
l
°
*
=
.
,
二  ̄  ̄
.
=
,
r
 ̄ l
3 -
i o〇 J
>
.
r
—
Te s t n u m b er Te s t n u m b e r
图 2
-
8 不 同 算 法 下 中 继 无 人 机 能 耗 图图 2
-
9 不 同 算 法 下 中 继 无 人机共识 收 敛 时 延 图
(
2) 基于 D QN 轨迹规划 算法 的 仿 真 结 果
图 2
-
1 0 显示 了 追踪无人机在移 动 时 不 同 算法 的 平 均 奖励 训 练结 果 。 在每个
时隙中 追 踪无 人 机 飞 步 中 继无人机执行 个动 作 并 从其错误 经验 中 不 断
一 一
, , ,
学习 ,
以 提 高平均 回 报 。 可 以 观察到 ,
当追踪无人机移动 时 , 我们 的 算法 比 Q
学
习 和 随 机 部 署 算法 能获得 更 高 的 平 均 回 报 , 且算法波动较 小 , 稳定度更高
。
5 〇 〇
-
—
〇 -
i ea r n ng
i
R a n d o md e p o y m e n t
l
0 1 0 0 2 0 0 3 0 0 4 0 0 50 0
n u m be r o ft r a ne p s o d ei i
(
s te
pt w o
)
图 2 -
1 0 追踪 无 人机移 动 时 不 同 算 法 下 平 均 回 报 比较 图
图 2 -
1 1 、 图 2 -
。 ,
踪无 人机和 中 继无 人机轨迹 。
对于 不 同 的 测 试轨迹 , 可 以 看 出 我们 的 算法始 终都
优于其他 比较算法 ,
都 能 获 得较 低 的 能量 消 耗 和 共识 收 敛 时 延
。
27
北京 邮 电大学工 学硕士 学 位论文
—
0
18
f :
DO N
*
15 0 cH ea m n
/
.
, — ̄
i
g
少 一
£
Ra nd o m d e p o y m e nt
l
/
I
-
二 二 !
^
//
t80
一 -
Ra n d o m d ep o
l
y
me n t
| 〇
、
、
/
! 〇〇
.
1
:
X X ■ 一
1 2 3 4 5 6 1 2 3 4 5
6
ra e c o
t
j
t r
y t r a
j
ec t o r
y
图 2 -
1 1 不 同 轨迹和算 法 下 的 能 耗 图 图 2 -
1 2 不 同 轨迹和 算 法 下 的 共识 收敛时延差 图
图 2 -
1 3 、 图 2 -
叮 翁H 二
二
-
, ,
I
3
■
r 二 一
j
『
t M MU
赢
0 J
I yi l i i li i li : :
nu m ber o f tra i n e
p
i s od e nu m be r of
tr a i n e p so d e
i
图 2 -
1 3 不 同 算 法 下 的 共 识 概 率 训 练 图 图 2
-
1 4 不 同 算 法下 的 中 断概率 图
2 6
.
本章小结
在本章 中 , 我 们 主要 研 究 多 无 人 机跟 踪 网 络 的 共识 和 能 耗 问 题 。
我们 引 入 了
, 。
, ,
28
第三章 基 于 MAD QN 算 法 的 多 无 人 机 轨 迹 和 功 率 分 配 联 合 优 化 方 案
第 三章 基于 MA D Q N 算 法 的 多 无 人 机 轨迹 和 功 率 分 配 联 合
优化方案
。 ,
( MA D Q N ) , 通过 联合 优 化所有追 踪无人 机 的 飞 行 轨 迹及 其传 输 功 率 分 配 来 改
善 多 无 人 机追 踪 网 络 的 连通度 、 共识性能和 能效 。
首先针 对 多 无 人机追 踪场 景
,
, , ,
用 MA D Q N 算 法来 求解 该 问 题 的 最优 策 略 , 最后 通 过 仿真对我们 的 方案进 行 了
验证 , 与 其 它 优化方法相 比 , 我们 的 方 案具 有 明 显 的 优 势
。
3 1 .
系 统模 型
, ,
模型 做具体描述
。
3 . 1 . 1 部 署 模型
Meva b l er a a g t
T AV
r
r a c ki a gt
、 … i 一
/
Ae
t i v * r a dU n s 、
!
1
’
一
-
一 !
▲
j
:
-
、 1 :
i
/
^
3 -
\ !
; | /
r tt
*
'
,
1 /
'
i
.
\
/ /
^ 减鄉 私
i
*
m
厂
*
/ /
J
r
’
?/
\
丨
,
T ki
r a c n gt a r g t t
Co n t r o l c * a t * r
1
(
/
图 3
-
1
部署场景
图
29
北 京 邮 电 大 学 工 学 硕 士 学 位论 文
, 目
M
=
f 和 J V 架追 踪 无 人机 的 集合 =
{
1
,
2 . . .
W 组 成 的 多 无人 机 追 踪 系 统
。
在该系 统 中 所有追踪 无人 机在 同 高度 以 满 足 F_ Fm a 的 速度 飞 行
每
一
, < v < 。
x
架 追 踪 无 人 机 负 责 追 踪 相 应 的 地 面追 踪 目 标 并 将 相 应 的 追 踪 信 息 传 输 给 相 邻 的
,
无人机 , 以 完 成对信 息 共 识
。
本 文 假 设 追 踪 目 标 的 整 体轨 迹 是 随 机 的 所 以 追踪 无 人机 的 整 体 轨 迹 也 是 随
,
机的 。
然而 , 当 我 们 把 整 个 过 程无 限 细 分 至 每 个 时 隙 《 的 运 动 时 , 假 定 在每个 时
隙下 , 追踪 目 标 是 固 定 不动 的 , 此刻 , 只 要 保证我们 的 追踪 目 标在 追 踪 无 人 机 的
观测 范 围 内 即可 , 所以 , 在无 限个细 小 的 时 隙 ;7 下 , 追 踪 无 人机 的 轨迹是 动 态 可
, 3 -
1 , ,
径 , 且在 活跃半径 中 , 都 是 无 人 机 可 以 移 动 和 轨 迹 规划 的 范 围 。
另外 , 本文假设
有 个 中 央 控 制 中 心 可 以 收集所有 追踪无人机 的 位置状态 信 息 并 且 能 够发送命
一
该 系 统 中 所 有 无 人 机 之 间 的 网 络拓 扑 可 以 表 示 为 个图 G 五 其中
一
=
,
,
j
=
表 示 为 该 图 的 邻 接 矩 阵 并 且 邻 接 元 素 满 足 % , 2 0 F ,
=
表示
由 # 架 追踪 无人 机 组 成 的 集 合 , 五 为每 对 节 点 之 间 边 的 集 合 , 节 点 的 邻居节 点
f
集合 可 以表不为 化 ^ 任 ^
巧 ^卜 其 中
:
’ :
:
^ /
? 3
-
1
(
)
[
0 5 o th e rs
3 . 1 . 2 多 无 人机追踪模 型
本文 假 设 地面 追 踪 目 标 用 户 的 二 维 坐 标 为 〇 > ]
=
^> 凡 ] , [
?]
f
e M ,
其
中 心 [
?] 和L [
?] 分别 为在 时 隙 《 下 , 追踪 目 标 m 在 X 轴和 Y 轴 的 坐标 。 追踪无
人机 的 水平坐标可 以 表示为 [
w]
=
e JV , 其中 \ [
?] 和乃 [
w] 分别为
在时隙 《 下 , 追 踪无 人机 在 i X 轴和 Y 轴 的 坐标 。 因此 , 追 踪 无人机 与 追 踪 i
目
标 m 之 间 在 《 下 的 水平距离 可 以 表 示为
:
〇 ]
=
\l [
X i [
ri
]
-
x
m [
n]
]
+
[
y i [
n]
-
ym [ n] f (
3
-
2)
因 为 所有 追 踪无 人 机 在 同 高度 飞行 所 以 无人 机 的 观 察 模 型 的 数 学 表 达
一
式可 以表示 为
:
<J?
=
U ? F +^ 3 3)
-
]
V (
〇 i m [
n] =
^
y Mzm (
3
-
4)
30
第三章 基 于 M AD QN 算 法 的 多 无 人 机 轨 迹 和 功 率 分 配 联 合 优 化方 案
其中 表示无人 机与 地面 目 标 之 间 的 夹角 , 为 了 保证 追踪 目 标 始 终 在追 踪 无
人机 的 观察范 围 内 , 该 夹 角 必 须 始 终满 足 ^
为无 人 机 与 地 面 目
标
之 间 的 最 大夹 角 度 数 , 因此 , 可 以 得 到 每架 无 人 机 的 活跃 半 径 为
:
Ra =
h tan 0
j m (
3
-
5)
在 活 跃 半 径 下 我 们 便 又 可 以 得 到 每 架 无 人 机 可 以 移 动 和 轨 迹规划 的 范 围 区
,
域
:
K (
3
-
6)
除 此之 外 , 由 于 每架 无 人 机 的 飞 行 速 度 满 足 , 因 此每架无人机
都存在 个最 大 飞 行 和 最 小 飞 行距 离 限 制 它 能够 被 定 义 为
一
,
:
^0 <
^+ ^ [ ?]
<
^5 3 7)
-
-
1
(
| |
] | |
, (
其中 3
,
表 示 每个 时 隙 的 时 间 长 度 ,
匕 和 ^ 分 别 为 每 架 追踪 无 人 机 在 时 隙 3 中
。
,
的 最 大 飞 行 和 最 小 飞 行速 度 。
除此 之外 , 在飞行过程 中 , 为 了 避 免 所有 无 人 机 之
间 可 能 出 现 的 飞 行 冲 撞 无 人 机 的 冲 撞 避 免 限 制 也 应 该 被 考 虑 限 制 条 件 应满 足 , ,
:
2 2
I I
c
W
-
c
W | |
> D
m n
i
,
V i
, ;
e N ,
i ^ j (
3 -
8)
,
7
其 中 l 为任 意两架 无人机之 间 的 最 小 间 隔 距 离
。
3 丄3 信道模型
, ,
传 输 带 宽 为 5 Hz , 其 将 被 均 匀 地 分 配 给 每 架 追 踪 无人 机 , 可 以 被表 示 为
:
B f
'
= -
(
3
-
9)
N
进 步 每架 无人 机 之 间 的 信 息 传 输 功 率 可 以 被 表 示 为
一
,
:
(
3
-
1 0)
i
=
"
其中 0 <
f < Pm
ax
为无人机 的 传输功 率 / , Pm ax
表 示 每 架 无 人 机 的 最 大 传输 功 率
,
A 表 示 无人 机 对 无 人 机 f
_ / 的 传输功率
。
除此之 外 , 在 追 踪 过程 中 , 时 间 间 隔 r 被划 分为 M 个 时 隙 。 其 中 每个 时 隙 的
长度 是 3 ,
, r =
i v
,
*
4 。 同 时 我们 假 设无人机之 间 的 通信 信 道为 z as 信道 , 考虑
自 由 空 间 损 耗模 型 , 因 此 我们 定 义 信 道 系 数 为
:
3
1
北京 邮 电 大 学 工 学 硕 士学 位 论 文
N
^ W = =
3 -
1 1
… …
,
t
(
)
r M n rp
刺 十 少刺
r r
h 卜 x +
-
J
」 [ _
乃 [
」
其中 《 表示时隙 ,
爲 表示在 名
=
l m 时 的信道系 数 , 其中 < 为 固 定常数
。
表 示在 时 隙 A 下 无人机之 间 的 距离 。
考
虑使用 同 信 道 资 源 的 多 个无 人机之 间 存在 干扰 因 此通 过信 道 建模 可 以 计算 出
一
每条链 路 的 相 应 的 可 以 表示为
:
Pj n n
[ [
N
,
U
j
” = 3
-
2)
\?
1
}f
… …
, ,
' (
其 中 & 为无人机 对无人机 /
_ / 的 传输功率 ,
& 是对 无人机 产生干涉 的 无人机 i
_
/
的传输功率 ,
%
=
尽A /
〇
,
,
表 示接 收 无人 机 处 的 加 性 高斯 白 噪 声 ( AW GN ) 的功率谱密度 。
当 两架追 踪
无人机之 间 S IN R 满足 ;
^
>
仏 时 , 表示 该 无人机 和 无 人机 f
_ / 之 间 可 以 进 行 通信
,
SI NR 的 最 小 值 , 为 固 定常数 。
在 每个 时 隙 中 , 无人机 对 无 人机 i
_ / 的 数据 速率 可
以表本为
:
^ [
?] =
孕
l 〇g
2
(
l +
& [
?
] ) (
3
-
1 3
)
基 于 获 得 的 数据速率 , 我们 可 以 计算 得 到 无人 机 的 总 数据速率 f , 其可 以 被
表示为
:
= =
, l
y I
(
3
-
1 4)
ZZ B 〇§ + ^ ? ? l〇 g + / ? j e iV ^ j
=
! !
1
2 2 ? ,
/
)
i
[ ] i
[ ]
( j
( i
)
= =
j
/ 1
\
同时 , 我 们 也 可 以 计 算 得 到 无 人 机 和 无人 机 /
_ / 之 间 的 通信 时 延
:
'W
為、 d
=
3 5
_
1
(
)
。g ?
2 [ ]
)
其中 表示 每架 无人 机每 次共 识 需 要 传输 的 数据 包 的 大 小 我们 假设其为
一
, 2) 。
5
个 固 定 的 常数
。
3 1 4
. .
离 散 共 识算法模型
在第 二 章 的第 节 中 我 们 的 离 散共 识 算 法 模 型 主 要 考 虑 的 是 加 入 中 继 无 人
一
机 和 无 中 继无 人 机 的 共 识 算 法 的 收 敛 时 延 差 , 加 入 中 继无人机 后 , 因 为存在前 后
32
第三 章 基 于 M AD QN 算 法 的 多 无 人 机 轨 迹 和 功 率 分 配 联 合 优 化方 案
场 景 的 变化 , 我 们 需 要 计 算 引 入 这种 差 异 化 而 带 来 的 提 升 , 而在 本 章 中 , 我们 并
没有 引 入 中 继 无 人 机 , 前 后场 景未发生 改变 , 因此 , 多 无 人 机追 踪 网 络 的 共 识 收
敛时延 可 以 被定 义为
:
(
)
0
^)
-
1
c k
-
1
, ( 2 2 )
(
其中 9 和 〇 为正常数
2
,
心 e
(
l
,
〇〇
;
)
。 因此 , 我们 的 离 散共 识算 法模 型可
直接被 定义为无人机追踪 网 络 的 共识 收敛 时延
:
Tc =
tT 〇〇 An ) (
3
-
1 7)
? =
1
3 1 5
. .
能耗模型
在第 二章 的第 节中 我 们 的 能 耗模 型 主 要 考 虑 中 继 无人 机 的 能 量 消 耗
而
一
, ,
在本章 中 , 我 们 将 考 虑 所 有 追 踪无 人 机 在 追 踪 过 程 的 能 量 消 耗 。 在 该 过程 中 ,
无
人 机 的 能 量 消 耗 依 旧 主 要 包 含 两 个 方 面 无 人 机 之 间 的 通 信 能 耗 和 维持 无 人 机 机
:
此 本章 我们 依 旧 不考虑 这 部分
一
。
E^
f Ef {
v n ,
) (
3
-
1 8)
?=1
其中 尽 为 每 架追踪 无 人 机 在 时 隙 《 下 以 速度 v 飞 行 时 所 消 耗 的 推进 能 量
。
3 2 .
问 題构 建
在本 节 中 , 我们 主 要 对 本 章 中 所 需 要 的 优 化 问 题 进 行 了 详 细 的 描 述与 分 析
。
对 多 无人 机追踪 网 络 中 的 共 识 收 敛 时 延 和 能 耗 问 题进 行 了 效 用 函 数 的 合 并 同 时
,
在 多 无 人 机 追 踪 网 络 中 不 同 的 网 络 连 接 度 会 严 重 影 响 共 识 算 法 的 收敛 时 延
,
( 具 体在第 四 章 分析 ) , 网 络 连通度 越 大 , 共 识 算 法 的 收敛速度越快 。 这种 代数
连 通 度 可 以 通 过 改 变 边 的 权 重来 控 制
。
33
北 京 邮 电 大 学 工学 硕 士学位论 文
在 总 功 率 开 销 固 定 或 开 销 最 小 化 的 情 况 下 为 不 同 无人 机 链路 分 配 不 同 的 功 率 是
,
个重要 的 优化 问 题 也就 是说 在 定 的 总 功率开销预算下 通 过 改变 不 同 链
一 一
。 , ,
因此 我们 的 优 化 问 题便 是可 以 通过 个整体 的 效用 函 数 来 联合 规 划 每 架
一
, ,
追 踪 无 人机 的 轨迹 以 及 每 架 无 人机 的 传 输 功 率 , 最 小 化 我们 的 优化 目 标 ,
我们 将
该 问 题 可 以 表述为
:
mi n (
3 -
1 9)
2 2
sJ cl. :
I I
c
( [
?]
-
c [
n] | |
> D nin ,
V /
, 7 e iV ,
/ V
j
; i
c2 : T < d
t
c3 : 6 >
?] < ^
m [ max
其中 & 和 为 共 识 和 能 耗 系 数 且 满 足 GG
=
1 。 cl 定 义 了 无人机之 间 的 最 小 距
的移动 时 间 , 因此 , c2 定 义 了 中 继 无 人机 的 移 动 时 间 范 围 ,
C3 限制 了 无人机与 地
面 目 标之 间 的 夹角 度数 确保 , 目 标始 终 在 无 人 机 的 观 察 范 围 内 防 止 , 目 标被 追 丢
。
3 3
. 基于 MAD Q N 算 法 的 多 无 人 机轨迹 及 功 率 联 合优 化 算法
在第 二 章 中 , 我们 主 要利 用 了 D QN 算 法 完成 了 中 继 无 人机 的 轨迹 规划 ,
其
属于 种 集 中 式 的 强化学 习 算法 然而 这种 集 中 式 的 方法可能会 带来 昂 贵 的 计
一
, ,
算复杂 度 。 因此 , 多 智 能 体深 度 强 化 学 习 ( mu l t i a g e nt D R L
-
, MAD RL ) 可能是
以 较 低 的 计 算 复 杂 度 获 得策 略 的 另 种方法 同时 对于 处 理 大 规 模 控 制 路径
一
。 , 、
规划 或 博 弈 问 题 多 智 能 体 深 度 强 化 学 习 能 展 现 出 相 对 于 深 度 强 化 学 习 更 高 的 优
,
势
。
34
第三章 基于 M AD QN 算 法 的 多 无 人 机轨 迹 和 功 率 分 配 联 合 优 化 方 案
3 3 1
. .
麟 论基 础
“ ”
强化学 习 的 主要 思 想就是 个不 断 试错 的 过程 智 能 体 通过 与 环 境 不 断
一
的 交互 , 利 用 获得反馈 , 不 断进 行 信 息 的 迭代 和 优 化 , 在 这 个 过程 中 , 我们 需 要
解 决 的 问 题通 常 可 以 被描述为 马 尔 科 夫 决 策过程
。
马 尔 科夫 决策过程 延 展 到 多 智 能体 系 统 可 以 被定 义 为 马 尔 科夫博弈或 随机
,
博弈 。 在 随 机博弈 中 , 所 有 智 能 体 会 根据 当 前 的 环 境状 态 来 同 时 选 择 并 执 行 他 们
各 自 的动作 , 这些各 自 动 作 带来 的联合动 作 将会影 响 环境状态 的 转移和 更新 ,
并
决 定 智 能体 获得 的 奖励 。 它 可 以通过元组 〈
^ ,
^ ,
…
,
^ ^^ , ,
… 及
^ 来表 示 其 中 :
夕
表 示 状 态集 合 ,
4 和 厚 分 别 表 示 智 能体 的 动 作 集 合 和 奖励 集 合 〖 , T 表 示 环 境状
态转移概率 ,
y 表示损 失 因 子 。 此时 , 智 能 体 获得 的 累 积 奖 励 的 期 望 可 以 表 示
f
为
:
五 免
'
S =
a 4 冗 =
20)
 ̄ ?
5 5 3
'  ̄+
-
&
( ) ( ,
,
,
i ) 1
( I
)
,
。 (
L ^
’
o
.
, ,
意 个 智 能 体 都 无 法 通 过 采 取其 他 的 策 略 来 获 得 更 高 的 累 积 回 报 在 数 学 上 可 以
一
表达为
:
i s A ge n ts
(
3
-
21)
其 中 ^ 表 示 智 能 体 的 纳 什均 衡 策 略
; /
。
3 3 2
. .
基于 MAD Q N 算法 的 联 合 优化博弈 问 题 及模型 定 义
, ,
出 的 M A D QN 方法 进 行 求 解
。
在 多 无 人机 的 追 踪 网 络 中 我 们 假 定 每 架 无 人 机可 以 ,
自 主 决定 其 飞 行轨迹和
传输功 率 , 以 获 取最 大 效 用 R 。
每 架 无 人 机 的 效 用 是基 于 当 前 网 络 环 境 的 状 态 和
其 它 无人 机 的 行 为 然后 网 络 环 境 将转变为 种 新 的 随 机 状态
39]
这取决于之
一
1
, , ,
〈
S , [
40] 。 S ,
為 f , 尸
转移概率 ,
& 卜為 表 示通 过 采 取 动 作 為 使 得 状 态 从
)
S 变为 的 状 态转移 概 率
。
因此 , 在 随机博弈 中 , 我们 模 型 的 状 态 、 行 为 和 奖励 可 以 被 定 义 为
:
35
北京 邮 电大 学工 学硕士 学 位论文
1
) 状态 风《 ]
: 每 架 追踪 无 人 机 的 状 态 可 以 他 们 的 位置 坐 标 表 示 被 定 义 为 ,
:
[ ' [
?] ,
乃 [
?]
f , 其中 为追踪 无 人机 在 时 隙 《 下 的 水 平 平 面坐
f
标 。 因此 , 我们 的 状态 空 间 能够被表 示为
:
S [ n]
=
{
c
^ n X c^ n ] ,
. . .
,
^^ ] } (
3
-
2 2)
, ( )
。
2) 行动 空 间 為 [
?] : 在 追 踪 过程 中 , 在 每个 时 隙 《 下 , 每架 无 人 机 就 需 要 决
定 自 己 的 轨 迹 和 相 应 的 传 输功 率 , 这 些 动 作 将 用 于 改 变 无人 机 的 行 为 以
响 应 每个 时 隙 处 的 状态 。
因此 , 每架 追 踪 无 人 机 的 行 动 空 间 可 以 被表 示
为
:
4 ?] =
化 3 23 )
-
[ (
其 中 无 人机 的 轨迹行动 可 以 表示为 =
丨 丨
, 其中 rl
,
[
?]
表
示无人机 在 时 隙 《 下 的 飞 行方 向
表
°
f rl .
[
w] e 0 3 60
,
, rl
[
n] e Z ,
,
[ ] ,
示无人机 在 时 隙 / ;7 下 的 飞 行距 离 rl
JM
e Z 。 无 人机 的
功率 行动 为 <0 户_ 在每 次实验 中 基于 时 隙 《 的 当 前状态
一
6 [
?] ,
。 ,
风《 和 基于 ] Q 网 络 的 控制 策略 , 每架 无人机开始 执行动 作 為 [
?] 以响应
状态 , 最优动作 使多 无 人机 网 络 的 平均 回 报最大化
。
3
) 奖励 回 报 式 [
?] :
奖 励 回 报 定 义 了 每 架 无 人 机 在 当 前 状 态 5^ 对 时 隙 n 中
]
所采 用 的 动 作 4 [
?] 的影响 。 在我 们 的 模 型 中 , 我们使用 整个 网 络 的 共识
收 敛 时 延 和 每 架 无 人机 消 耗 的 能 量 , 这两 部 分 的 加 权 和 来 量 化我 们 的 优
化 目 标 , 同 时 考虑 , 当 追踪 无 人 机 的 轨 迹 飞 出 了 可 观 察 范 围 时 , 应当给
予相 应 的 惩 罚 户》1
;
[
?] 。 当 所 有 无人 机 由 于 链 路 时 延 过 大 或 链 路 质 量 不 好
而导 致 的 链路 中 断 , 使得我 们 的 追踪 网 络 无法共 识 , 也 就是说 ,
共识 算
法不 收敛 , 在这种情况下 , 我们 应 当 给与 相 应 的 惩 罚 PW 2 .
[
?
]
。 因此 ,
我
们 的 奖 励 方程 可 以 通过 如 下 这 种 形 式 来 计 算 得到
:
(
[
?]
=
+ P u l[n] +
Pu 2 [
? ]
UM
1
(
3 -
24 )
= -
h P u l n] + P u 2 n]
^ M
^[
[
,
^ rc [ w ]
-
当 无人机 采取 了 行动 為 f
[
w] 并 且 其 它 无 人 机釆 取 了 行 动 足 , 无 人机 也
f
许 获得奖励 及 , [
?] =
及 ,
(
《 ,
5[?] ,
4 [
?] ,
< [
?]
)
, 其 中 行动 向 量 能 够被 定
36
第三章 基 于 M A D Q N 算 法 的 多 无 人 机 轨 迹 和 功 率 分 配 联 合 优 化 方案
义 作 为我 们 的 博 弈 中 的 可 行 解 当 每 架 无人 机 在 任 何 个S 下 满足 以 下 不等
一
。
[
?] ,
式时 , 我 们 认 为 我 们 的 博弈 实 现 了 纳 什均 衡
:
^ R
i
(
n 5 [?] , ,
4 [
?] ,
^ -
, w ) (
3 -
25)
在 纳 什 均 衡 状 态 下 每 架 无人 机 的 动 作 可 视 为 对 其 他 无 人 机 动 作 的 最 佳 反 应 ,
。
所 有 无 人 机 都 无 法 从单 边 偏 离 中 获 得 收 益 此外 考 虑 到 这 种 随 机博 弈 是 周 期
[
4 1
]
。 ,
。 ,
,
人机的 策 略后 , 从环 境 中 获得 累 积 奖 励 。
如 果 所 有 无 人 机 都 能 获得有 关 奖励 函 数
和状态转 换 的 信 息 , 则 可 以 使用 整数规划 方法找 到 纳 什均 衡 。 然而 , 在这种 随 机
博弈 中 ,
无 人 机 无法 获 得 此 类 信 息 。 因此 , 为 了 解 决这个 问 题 , MA D Q N 方法被
提出 , 通 过 与 网 络 环 境 交 互 来 实 现 任 何状 态 下 的 纳 什 均 衡
。
3 3 3
. .
算 法流 程描述
算法 3 -
1 基于 MA D Q N 的 多 无 人 机 轨 迹 和 功 率 分 配 联 合 优化 算 法
1 :
随 机 初 始 化 多 无 人 机 追踪 网 络 分布
2 : 初 始 化 经验 回 放 内 存 A 、 Z)
2
和马
3 :
初 始 化三个 行 动 值 函 数 2 -
1 (
^ 1 丨
6
*
1 )
、
0 2 (
> ?
,
〇 !
2 |
6 >
2 )
和 2 〇 3
,
《
3 丨
6 >
3 )
, 其中 |
9
为 随机权重
4 :
初始 化三个 行动 值 函 数 -
(
? |
或 )
和
丨
4 )
,
其 中 权重 碑 =
6 >
i
、
巧和色
二
名
5 : fo r e
p i s o de
=
1 ,
M do
6 : 在 特 定 地 理 区 域 内 随 机 初 始 化 所 有 无 人机 的 位 置 坐 标
7 : fo r ep o c h n
=
1
,
N t
do
8 :
在状态 S [
n] , 每 架 无人机基 于 4 问 =
/
/
(
5
(
?
) 丨
少
)
+ < 选 择动作
9 :
每 架 无人 机 几 个 给 的 行 为 4 [
?] , 选 择动 作 6 、
% 和
A
执 行动作 叫 和 观 察 奖励 扣 更新下 状态 义
一
〇 ?]
1 0 : 、
% 3 ,
i?
,
] , [
1 1 : 储 存转 移 样本 [
?] ,
《 [
?] ,
S M 放入 A )
、
1 2 :
令
37
北 京 邮 电 大 学 工 学 硕 士 学 位论文
1 3 : fo r UAV i
=
l , N do
1 4 :
从 马 、
化 和 !^ 中 随 机抽 取 小 批 量 转 移 样 本
、
( ? ,
4 ,
/
^ ,
彳 )
和 (
s
尸
)
1 5 :
令
g =
<
+rn
^
x 0_ , 2
? , 毛 4 和 为W 丨
)
+ r?
^
x
Q娜 3
? ,
4M >
)
1 6 : 对 ^ _
_
认 (
1 5
/
,
0 1
.
1 < 丨
沒 1 /
) )
、
>^
_
2 2 ,
'
(
1 ?
/
,
〇
2/ 丨
^ 2 ;
) )
和
( (
2
(
点 -
a 卜 ,
,
《
3 批0 ,
)
利用 3 、
巧和A , 采 用 梯 度 下 降 的 方法 最 小 化 损
失
1 7 en d
:
1 8 :
每 C 步更新相应 的 目 标网络 :
Q 、
0 , a(
^ , 2
=
g
2
和
Q Q
_
ar
ge fi
t
i
1 9 : End f or
20 : E nd fo r
基于 MA D Q N 的 多 无 人 机 轨 迹和 功 率 分 配 联 合 优 化算 法 如 算 法 3
-
1 所示
。
在 我 们 的 随 机 博 弈 模 型 中 每架 无 人 机 可 以 被 视 作 ,
一
个 D QN 智 能 体 除此之外 ,
,
为 了 减轻每个 智 能体 的 动 作 空 间 和 学 习 复杂 度 , 我 们 将每 架 无 人 机 的 三 个 动 作
,
包括飞 行方 向 rl
,
[
?] , 飞 行距离 ^ /
[
?] 和 功 率选择 珂《 进 行拆 分 ]
, 为每个动 作 分
别创建 个 新 的 智 能 体进 行 学 习 这样 在 我们 的 M AD QN 模 型 中 我们 共有
一
一
, , ,
3 # 个智 能体
。
除此之外 , 我们 每个 D QN 模型 主要 由 两部分组成 : ( 1 ) 两 个深 度 神 经 网 络
( D NN ) 和 ( 2 )
Q
-
学 习 决策 模 型 。
神经 网 络可 以解决高维动 作空 间 的 问 题 。
通
过拟 合 函 数而 不是 Q 表来生成 Q 值 , 我们 可 以 得 到 相 似 的 状 态 和 输 出 动 作 。
因
此 DNN 对 复 杂 特 征 的 提 取 有 很 好 的 效 果
, 。 同时 , D QN 有
一
个类似于 Q
-
l e aming
的更新 公式 , 可 以 最大 化 折 扣 长 期 回 报 ,
如 下 所示
:
'
Q {s r
i 4 E R
'
?] =
n + ym Q [S n] ?]
4 3 26
-
^
.
[ \ [
,
) t
( ) [ ,
[ (
)
[
n ]
)
J
其中 7 为折扣 因 子并且满足 0 < ^ < 1 , 当 7 趋 于 零 时 无人 机 主 要 考 虑 即 时 奖
,
励 。
当 / 趋于 1 时 , 无人 机主 要考虑 未来 的 奖励
。
在 我 们 的 机制 中 每架 无 人 机 的 动 作 由 飞 行 方 向 飞 行 距 离 和 功 率选 择组 成 , 、
。
因此 , 在 我 们 的 设计 和 实 现 中 , 我 们 分 别 使 用 三个 相 同 的 D QN 模型 对它们 进行
38
第三 章 基于 M AD Q N 算 法 的 多 无 人机轨迹和 功 率分配 联合 优 化方 案
训 练 。 它们可 以表示为三个行动 值函 数 -
七问 ,
、
么 (
& ? , 丨
爲 , )
和
)
么 。 相应的 目 标 网 络可 以表示 为 y 丨
q
和 在每个 d qn 模型 中 , 我们 使 用
一
个 两 层 的 全连 接 的 神 经
网络 第 层有 个神 经元 第 二层有 个 神经元 Re L U 用 作 激 活 函 数
一
。 30 , 20 。
。
在 学 习 和 更 新 过程 中 我们 使用 经 验 回 放缓冲 区 来更 新 和 存 储 收集 的 环境样
,
。 ,
, ,
,
网络 。 我们 使用 最优 网 络和 q 网 络 的 最小均方误差来
定 义损 失 函 数 。
两个损 失 函 数 4 ^ ,
;
)
,
4 ^^ 4 0
,
,
3 ,
;
)
都可 以 表示 为
:
五
[
(
2¥ "
_
2 ( ? 叫风 ,
) )
1 (
3
_
2 7)
乙 化 和 4 的 能够 以 相 同 的 方式被获取
( ) )
,
,
是 目 标网络 的值 , 可以
被 表示 为
:
'
Q R ? + ^" 2 8)
^0
=
〇 6 3
-
>
^
sc t V
t ar , i ( )
,
; ; | ; ,
(
( )
,
和 能够 以 相 同 方式被获取 ,
化 , 能够 通过 三个损 失 函 数
化 )
,
4机 ,
) 人 化 利 用 梯度下 降来更新
( )
, 其可 以 被计算
:
v
a ,
L
M =
£
[
a^ v A e (
(
5
,
,
l
f
, i
^ )
]
五 G S “ 沒 ▽ 2( 沒
_
. .
[ (
y
,
1 , I 1 ,
)
先
J 1 /
)]
( 凡 能够 以 相 同 方式被获取
)
。
在 每个 时 隙 更 新 参 数 化 ,
0
2<
,
^ 后 行动 % ,
,
a
2,
.
,
% 都会停止 。
并 可根 据 贪 婪 算
法 进 行选 择 ,
即 在 概率 为 s 的 情 况 下 随 机探 索 动 作 ,
并 在 概率 1
-
s 为 的情况下使
用 神 经 网 络 决策获得下 个 动 作 贪 婪 算 法 可 以 鼓 励 中 继 无 人 机 进 行 探索 并 防 止
一
程序 陷 入 局 部 最优 值
。
39
北京 邮 电大学工学硕士学位论文
3 3 4
. .
算 法 具 体 训 练流 程
开■ 炼
计算 当 前 的 网 名
络状态
星
完成 回 合
?
丫
否
重置 中 继 无 人
r §r
中 继 无 人 机 基于 定 的
縣 癖或 最大 Q酿
选
作
〒
一
] [
中 继无 人纖行 动
作得 到 麵和 下
一
个 态
〒
] [
得 到 转 移 ^ 包括 当 前 状
,
态 动作 麵 下 状 态
'
、 、
一
和 是 酸止 将斯 储在 经
,
g金 中
〒
1
否
从 经验 迪 中 随 机 取 样 b a c h 大
t
小的 样 本 计算 当 前 网 络 下 的
实 际 Q M 开獅 炼
,
图 3
-
2 MA D QN 训 练模块 图
40
第三章 基 于 M AD QN 算 法 的 多 无 人 机 轨 迹 和 功 率 分 配 联 合 优 化 方 案
步骤 开 始 进入 MA D Q N 的 模 型 训 练 设置训 练 的 回 合数为 轮
判
一
: , 5 00 ,
步骤二 :
随机重置每架无人机 的 位置状态 , 状态空间 能够被表示为
耶 ]
=
& [
?] ,
〇
2 [
?] ,
. . .
,
以 [
w]
}
, c .
, [
n] 为 无 人机 的 水 平 位 置 坐 标
。
步骤三 :
判 断 是否 完成每个 回 合 下 的 步 骤训 练 ,
步骤 训 练 值设置为 50 步
,
如 果 完 成 则 进入 回 合 判 断 进 入 新 轮 的 学 习 如 果 没有完成 则 进入步骤 四
一
, , , ,
。
步骤 四 : 中 继 无 人 机 利 用 概 率超 参 数 e
p si l on 在 随机和 Q 策略 间 选择动 作 来
探索 环境 , 在探 索 环境 的 过程 与 环 境进行 数据 交 互 , 该数据 包括加 入 中 继后 整个
网 络 的 参数 , 如 每 条链 路 的 相 应 的 信 号 与 干 扰 加 噪 声 比 、 链 路速 率 及 链路 时 延
。
动 作 的 选取 会在 飞 行方 向 飞 行 距 离 尤 < 0 尤^ 中 分 别 选 择 特 定
。
£ 0 3 60
,
必 [
,
; |
,
,
步长 , 根据 每 次 行 动 , 每架 无 人机 会 设 定 其 二 维 轨 迹 和 发 射 功 率
。
步骤五 : 得 到 与 环 境交 互 的 参 数 后 , 通过 奖 励 公 式 得 到 相 应 的 奖 励 值 , 建立
状态转换 同 时 将得 到 的 转 移 样 本 包 括 当 前 状态 动作 奖励 下 状态和 是
一
, , 、 、 、
否 动 作 终 止 五种 状态储 存 在经验 池 中
。
进入 步 骤七
。
步 骤七 当 经验 池 中 的 经 验 数量 大 于
: b at c h 的 大小 时 ( b at c h 我们 设置为 500 )
,
: , , ,
。
3 4
.
仿 真结 果 与 分析
本 节 对 我 们 提 出 算法 的 仿 真 结 果 进 行 了 评 估 和 讨 论 在 仿 真 中 我们在
个
一
。 ,
大 小 为 2 00 / m x 20 0 w 的 地 理 区 域 内 部 署 了 4 架 追踪无 人 机 和 4 个移动 用 户 。
其它
仿真参数如 表 3
-
1 所示
。
4
1
北京 邮 电 大学工学硕 士学位论 文
3 4
. . 1 仿 真场 景
表 仿 真参数表
3
-
参数
描 述 值 | |
Pm ax
无 人 机 的 最 大 传 输 功 率 l OOdBm
B
^
1 MHz
N
追踪无人机个数
4
/
3
0
信道系数
-
5 0dB
r
折扣 因 子
Q 9
.
I
学习率
0 0000
.
1
Pu \
惩罚 因子 1
20
Pu l
惩罚 因子 2 20
共识 系 数 0 95
.
能 耗 系 数 0 . 05
3 4 2
. .
仿 真结 果 及 分析
图 3
-
3 显 示 了 不 同 算法下 的 平均 奖励 训 练结 果 。 我们可 以 看到 相 比于 , D QN
快的 收敛 。
除此之外 , 在 MA D Q N 算法 中 , 我们 分别对 比 了 采 用 功 率分配和 未采
用 功 率 分 配对 训 练奖励 的 影 响 可 以 观察到 功 率分配在 定 程度上具 有更 高 的
一
, ,
, ,
。
50 0
D3 0 0
-
I
p
L /
(
殳2 0 0
- 一
/
2
j
s 10 0
-
/
〇
-
j
I
M A D Q Nw i
th
p
o w e ra l l
oc a t o
n
i
l oo
-
I —
D Q N
0 1 0 0 2 0 0 3 0 0 40 0 5 0 0
42
第三章 基于 MA D Q N 算法 的 多 无人 机轨迹 和 功 率 分配 联 合 优 化方 案
图 3
-
图 3
-
共 测 试 了 2 0 次 , 可 以看到 , 当 我们 将效 用 函 数 , 也 就是能量
消 耗和 共 识 收敛 时 延 函 数 解耦 时 采用 功 率 分配 的 方 案 明 显 优于 没有采 用 功 率 分
,
6 0
-
j
§
—
45
M A D Q Nw
^ i th
p
o w e ra l l oc at on
i
c D Q Nw i t h ou t
p
owe ra l l ocat o n
i
40
S
i
: ^ / A/ v yVA
2 5 7 1 0 12 1 5 17 2 0
Te s t n u m be
r
图 3
-
4 不 同 算 法 下 的 共识 收敛 时 延对 比 图
图 3
-
。 , , ,
,
高 于 传输 能耗 。
另外 , 从 图 中 还可 以看 出 , 对于 D QN 和 MAD QN 算 法来说 ,
是
否 进 行 功 率 分配对 能 耗 的 影 响 是 微弱 的 ,
功 率 分配 更 多 是对共识 收敛时延 带来提
升 , 验证 了 我 们 前 期 的 猜想 。 但从整 体 效 果来看 , MA D Q N 算法相 比 于 D QN
来
说 ,
能耗性 能上 也 带来 了 微弱 的 提升
。
43
北京 邮 电 大 学工学硕 士 学 位论文
t
i
2 8〇
]
-
*
M N r^
M A D Q N w i
\
th o u tp o w e ra l l o c at o n
i
^
t t
8 p
i l l
i
2 60
Ra
'
ndo m t r a e c t o r
y
g ; j
a
>
£ 2 4 0
-
2 2 。
2 0 0 ?
2 5 7 10 1 2 1 5 1 7 2 0
Te s t n u m be
r
图 3
-
5 不 同 算 法下 的 能 耗对 比 图
3 5
. 本章小结
。 ,
算法 ( MA D Q N ) , 通 过 联 合 优 化 所有 追 踪 无 人 机 的 飞 行 轨 迹 及 其 传 输 功 率 分 配 来
改善 多 无人 机追踪 网 络 的 连通度 共识 性 能和 能 效 由 于 联合 优化 问 题 的 非 凸 性 、 。
,
同 时 考虑 到 每架 无人 机 的 效用 是根据 网 络环 境和 其它 无人 机 的 行 为来确 定 的 ,
我
们 可 以 将该 问 题建模为 个 随机博弈 问 题 针对 多 无人机 的 离 散动 作 空 间 以 及 大
一
问 题 的 最优策略 , 最 后 通过 仿 真 对 我 们 的 方 案进 行 了 验证 , 我们 的 算法与 其它 算
法相 比 ,
具有 明 显 的 优势 ,
有 效地减少 了 共 识 收敛 时延 和 网 络 的 能量消 耗
。
44
第四章 多 无 人机 网 络 中 共识 收敛 时延 分 析
第 四 章 多 无 人 机 网 络 中 共 识收敢 时 延 分 析
配 两种 方 案 能 改 善 共识策 略 的 收 敛 时 延 的 本质 原 因 都 是 改 变 了 无人 机 网 络 的 代
。
数连通度 ,
其 可 以 通 过 拉 普 拉斯矩 阵 的 第 二 最 小 特 征 值 来表 示 。 前者 引 入 中 继无
人 机 主 要 通 过增 加 和 删 除 边 来 改 变 网 络 拓 扑 结 构 进 步控 制 网 络 连通 度 后者
一
, 。
本 章 详 细 介绍 了 影 响 多 无 人机 网 络信 息共识 收敛时 延 的 影 响 因 素 并且 详细
,
分 析 了 前 两 章 提 出 的 方 案 之 所 以 能 提 升 和 改 善 共 识 收敛 速 度 的 具 体 原 因 , 同 时进
行 了 仿真 , 验证 了 我们 相 应 的 分析
。
4 1
.
共 识 收敛 时 延 的 影 响 因 素 分 析
的 基 本概 念 , 其可 以方 便我们 对共识算法 的 分析 。
其 次我 们 介 绍 了 什 么 是 网 络 中
的 共 识 问 题 以 及什么 会影 响 共识 收 敛 时 延 , 最后 我们 给 出 了 仿真验证
。
4 1
. . 1 图 论基 础
我 们 的 网 络 拓 扑 可 以 表示 为 个图 沟 其中 j 表示为该
一
= =
, ,
图 的 邻 接矩 阵 , 并且邻接元素满 足 F
=
表示 网 络 中 所有 的节 点
组成 的 集合 , 五 为 每 对节 点 之 间 边 的 集合 ,
节 点 的 邻 居节 点 集合 / , 可 以 表示 为
a
一
〇
}
, 其中 [
30
]
:
?
,
=
V J ,
(
4 -
1
)
[
0 , o th e rs
节 点 v 的入度和 出 度 可 以 分别 被表示为
,
:
deg
, ” (
v
,
)
=
J
=
X
l
(
4 2)
-
N
de g v
5> 4 3
= .
-
ow ( ) (
)
&
,
=
i
y
45
北 京 邮 电 大 学 工 学 硕 士 学 位论 文
图 G 的 对 角 矩 阵 可 以 表示 为 A
=
[
A
j , 其 中 对于 所有 的 / * _ / 都有 ? =
0 ,
并
且\ =
<1
呢 。 ?( 〇^
。 因此 , 基 于 邻接 矩 阵 的 对 角 矩 阵 , 图 < ^ 的 拉普拉斯矩 阵 _ /: 可以
被 定义为
:
L
=
L
(
G)
=
A -
A (
4 4)
-
通 过 定 义 可 推得 拉 普 拉 斯 矩 阵 的 每 行 总 和 为 〇 因 此 对 于 拉普拉斯 图 来 说 , ,
,
总 是有 个值为 的特征值 同时 我 们 对 拉普 拉斯 矩 阵 的 特 征 值 按 照 大 小 来 排
一
0 。 ,
序为 , ; 2 2
4 , 其 中 对 于 图 连通 的 充 分 必 要 条件 必 须 满 足
, ;1
2
乏 0
,
这个 倒 数第 二 大 的 特征 值 叫 做连通性特征值 , 也 被 叫 做 费 德勒特征 值 ( F i e d l er
e i g e nv a l u e )
[ 3 1
]
, 显然对 于连通 图 来说 , 满足 岑 =
0 ,
4
2 0 , 且 aw A
r ^^ i V
-
l
。
4 . 1 . 2 网 络 中 的 共识 问 題
共 识 问 题 在 计 算 机科 学 中 有 着 悠 久 的 历 史 是 分 布 式计 算 领 域 的 基 础 然 而 , 。
,
在 通信 网 络 角 度 是指在 动态 网 络 中 根据 所有 代 理 的 状态 就 定 数量 的 利 益
一
, , ,
, , ,
之 间 的信 息交换 [
42]
。
因此 , 离 散 时 间 的 共识算法可 以 被 表示 为
:
x
,
(
? + 1
)
=
x
f
(
/
)
+ su t
(
/
) (
4 5)
-
点 的 输 入 控 制 向 量 主 要 包 括邻 居 节 点 的 ,
一
些相对信 息 。
一
般 通 信 网 络 的 链路 中
,
通 常 存 在 通信 时 延 , 因 此对于存在通信 时延 的 情 况 , 我们 的 输 入 控 制 向 量 可 以 表
示为
:
U
M )
=
Ha v[
x
j(
?
-
^)
-
(
^
-
) ]
=
^ (?
-
T
) (
4 6)
-
其 中 & 为 无 人 机 和 无 人机 之 间 的 共 识 权 重 系 数
, /
_ /
, Z 为图 G 的 拉普拉 斯矩 阵
。
因 此 离散动态 时 间 共 识 算法 的 表达式 如 下 所示
,
:
(
/ + 1
)
=
x .
,
(
t
)
+
y
en
,
[
x
j(
t
-
T
y )
-
x
,
(
t
-
T
y )]
(
4 7)
-
当 时 后 文 我们 会 专 门 定 义
^ ( ) , 所有 无人 机 的 值 将 逐 渐 达 成 共 识
,
即 所 有 状态 收 敛 至 同 个值
一
:
雙 ^ 〇
, =
4 8)_
名 ( ) ! ( (
,
表示 网 络 的 共识 收敛 时延 。
如 果存在通信 时延 , 则 网络 中 的任意节点将
会 对 来 自 其他节 点 的 延 迟 信 息 进 行 融 合 , 这 将给 节 点 的 值 带 来 误 差 。
除此之 外
。
46
第四章 多 无 人机 网 络 中 共识 收敛 时 延 分 析
如 果 时 间 延迟 足够 大 , 上述 方程 更 有 可 能 不 收敛 。 通过 [
35
]
的 分析 和 证 明 , 我们
可 以 得 到 网 络 中 容许 时 延 的 最 大 上 界 以 满 足方程 收敛条 件
:
< ^
r 4 9)
— -―
-
(
4^
,
G
7
_ (
)
G、
d臟
兔a 4
=
(
-
1 0)
{ f
j
4 1 3
. .
共 识算 法 的 收敛性分析 及 性 能 仿真
前 小节 中 我们 定 义 了 什 么 叫 共 识 问 题 这 小 节我们 将 具 体 分析共 识 问
一 一
, ,
题 的 收敛性
。
2
T
V ( x) =
x Lx =
X x
4
- -
_
_
1 1
(
)
^
( 7 )
^
jes
i
由于 Z 的 特 征 值 都 大于 等 于 0 , 所有我 们 有 S 0
, 因 此我们 可知
,
该 系 统是有 界 的 , 但 是 我 们 并 不 知 道 会 收敛 到 哪 里 , 但是 La S al l e 不变集原 理告
诉我们 , 收 敛 到 不 变集 , 系 统 的 不 变集 也 就 是 F (
x)
=
0 的点 , 那么 当
可
&
=
. . .
=
X
j y
,
即 系 统达到共 识
。
在 图 连通 的 状态 下 , 我 们 可知 , 系 统 终 将会 收 敛 , 且 达到 共 识 。 但是从 [
3 6]
的 分析和 证 明 可知 , 即 使 系 统满 足 可 收 敛 的 条件 , 但 是 不 同 的 网 络 拓扑 结 构 ,
即
图结构 , 会 导 致 共 识 算 法 的 收敛 速 度 也 不 同 。 这个 收 敛 速 度 ,
我们 也 叫 做 共 识 收
敛时延 , 其 可 以 被 定义为
:
T 4 2)
-
1
-
'
con (
K +
/
?
/
l
*
_
( i ) !
( )
其中 9 和 4 为正常数 ,
& £
(
〇 ,
:
0
, A r
2
e
(
l
,
oo
)
。 由 该式子可 以看 出 ,
影 响 共识 收敛
时 延 的 主要 因 素 为 ; 叫 做连通性特 征 值 , 当毛 越大 时 , 越小 ,
当
毛 越小 时 , 越大 。 因此 , 为 了 验证该 结 论 , 我 们 仿 真 了 不 同 连通度 的 图
:
47
北 京 邮 电大学 工学 硕士学 位论文
N e tw o r k t o
po ogy
l
一
.
^
# U AV 2
?_ r 、
、
、
、
I I
, U AV 1
/
y
i
I /
.
.
.
-
|
H U AV 5
? U AV 4
/
/
/
’
? U AV 6
“
稀疏
’ ’
图 4 -
1
图
D i stru b i t e dC o n s e n s u s
1 .
2 1 1
U AV 1
U AV 2
-
1 .
1
^
\
\
U AV 3
—
U
U AV 4
U AV S
U AV 6
云
0 9 X、.
-
s
* ■
—
■
一
—
/
一
c u ,
巨 0 .
8
-
/
1 /
/
? / 7
-
-
0 .
C
D
亡0 6 /
-
-
0 5
-
-
0 4
-
1 1 1
0 .
3
0 2 4 6 8 1
0
t i
m e( s
)
“ ”
图 4 2 -
稀疏 图 的 共识 收敛 时延
48
第四章 多 无人机 网 络 中 共识收敛时延 分析
N e w o rk o p o o g y
t
t l
9 U AV 6
/\
/
:
1
\
//
、
\
? U AV 3
/ ,
‘ 一 -
…
—
4
;
? U AV 4
:
/ \
i
\
jx
? U AV 2
? U AV
1
“ ”
图 4 -
3 稠密
图
e dC o n s e n s u s
D i st ru b i
t
1 ^
U AV 1
U AV 2
|
1
U AV 3
?
^
U AV 4
U AV 5
公 U AV 6
-
0 .
9
、
 ̄
[
/
. 2
/
8
-
o
g
-
/ /
£
/
c _
i
:
d
i
M
■
|
0 .
6t
0 5
-
-
4
'
1 1
0 .
0 2 4 6 8 1
0
t i
m e( s
)
“ ”
图 4 -
4 稠密 图 的 共识收敛时延
“ ” “ ”
从以上四张图可以看 出 ,
稠密 图相 比于 稀疏 来说 ,
共识 收敛时延更
“ ”
小 , 直 观来看 ,
稠密 图 的边更多 , 边越 多 , ; 越大 , 从公式角 度也可 以 分
析 , ,
因此可 以看 出 牟 网 络 连通度可 以 影 响 共识 收敛
时延 , 越大 ,
共识收敛时延越小
。
49
北 京 邮 电 大学 工 学 硕士 学 位论文
4 2 .
改变 网 络 连通度 的 方 案分 析
通过上 节 的 分析 我们 可知 影 响 共 识 收敛时延 的 主要 因 素来 自 于
一
,
;
也 叫 网 络 连通度 。
本节我们 主 要针对第二 章 、 第 三 章 提 出 的 方案 , 具 体 分析 这 些
方案 是 如 何 改 变 网 络连 通 度 进 而 提 升 共 识 收敛 时 延 的
。
4 2 . . 1 增减拓扑边 一
中 紙人机 總方案
在 多 无人机 网 络 中 , 网 络连 通度 的 大 小 主 要 依赖 于 网 络拓 扑 结 构 的 变化 ,
在
多 无 人机场 景 中 这 种 改 变 网 络拓 扑 的 方法 也 叫 编 队 重 构 然而 在 追踪 网 络 中 , , 。
,
规划 的 , 因 此编 队 重 构 不 再 适 用
。
但 是 我 们 也 可 以 通 过 增 加 或 删 除 网 络 边 来控 制 。 然而 , 增 加 和 删 除边 以 获得
期望 的 代数连通度是 个 难问题 因此 在 我 们 的 方案 中 通过加 入
个
一 一 一
NP 。 , ,
新 的 中 继无人机 , 可 以 有 效 改变 网 络 的 拓 扑结 构 ,
实 现增 加 和 删 除 边 的 目 的 。
我
们 的优化 问 题可 以 定义为
:
ma x /i
j
(
1
(
c
) ) (
4 -
1 3)
2 2
s t cl 〇 11
-
11
> D V i e N i ^
^
. . :
| | ;
[ ] [ ] | |
m n i
, , j ,
j
其中 C= [
c f
,
, 表 示 所 有 无 人 机 的 位置 向 量 。 Z 为 追踪 网 络 的 拉普 拉 斯 矩 阵 。
限制
条件 表示 在 飞 行过 程 中 为 了 避免所有无人机之 间 可能 出 现 的 飞 行冲 撞
无
一
, , ,
人 机 的 冲 撞避 免 限 制 , 其 中 I 为 任 意两架 无人机之 间 的 最小 间 隔 距 离
。
显然 , 由 于 无 人 机 之 间 距 离 和 拉普 拉 斯矩 阵 之 间 的 非线 性 依 赖 性 , 上述 问 题
是 个 非 线 性优化 问 题 为 了 便于 分析 将通过 以 下操 作转换 问 题
一
( 4 -
1 3 ) 。 ,
[
33
]
。
命題 1 : 考虑 m 维的子空间 g e F 由 向量 仏 £ 及' 丨
=
1
,
2 ,
. . .
,
/ ? 生成
,
穿
=
[ 免而 矩 阵 M 有 以 下 的 性质
:
对 于 所 有 非零 c e g , Z Mo O ,
当且仅 当
c
=
+ a2 g 2 + … + (
4 -
1 4)
其 中 为 实 数 且 不 等 于 0 , 也 可 以 写 成 c
=
2y , 其 中
_ y
=
[
a 1
,
a2 ,
. . .
,
am f , 所以 , 我们 可 以 得 到 构少 > 0 , 由于
是
'
非零 向 量 进 步 可推得 0 M2 >
一
,
(
〇
。
推论 1 : 对于拉普拉斯矩 阵 L , 相等于 其 中
〃
£ 及 是单 位 正 交矩 阵 , 且满足
:
50
第四章 多 无 人 机 网 络 中 共 识 收 敛 时 延 分析
Uf =
0 , i
=
\
qJ qj
=
〇 , i 丰 j
证 明 : i: > 0 且L 1
=
0 , 因 此 最 小 的 特 征 值 4 (
L
)
将始 终等 于 零
,
r
F
r r
认 (Z ) S i V -
l , 可以证明 , 对于所有 非零 x e l , 其中 l
=
{
c e
|
l c= 〇
}
,
毛 (
L
)
2 0
相等于 c ie > 0
。
因此 , 联系 命题 1 , 我 们 可 以 得 到 cY c > 0 相等于 ,
! S Yg 〉 。 , 其中 g 表示
生 成子 空 间 x e f 的 向 量矩 阵 , 因 此 我们 的 问 题 ( 4 -
1 3 ) 可 以 转换为
:
m ax /l
2
(
Z
(
c
)) (
4 -
1 6)
2 2
s t . . cl :
| |
C
l [
n]
-
C [
n ] | |
> Dm n i
,
V i
, j
6 N ,
i ^
j
j
t
Q L (c Q )
> 0
解 决 这 种 非线 性 优 化 问 题 , 我们 可 以 利 用 深度强化学 习 , 具 体解 决方 案描 述
在第 二 章
。
4 2 2
. .
增减麟 权重 一
功率 分配方 案
另
一
的 权重 , 也 就 是 我们 所 说 的 共 识 权 重 系 数 , 其 具 体 体 现 为 无 人 机 网 络 中 每 条 链路
的 大小 , 这 是 我 们 改 变 网 络连 通 度 的 另
一
个角 度 。 通常 , 在总 功 率开 销 固
定 或 开 销 最 小 化 的 情 况 下 为 不 同 无 人 机 网 络 链路分 配 不 同 的 功 率 也 是 个重要
一
的优化 问 题
。
因此 上述功 率优 化 问 题可 转化为 个 非 线 性规 划 问 题
一
,
:
max /l
2 (
Z
) (
4 -
1 7)
/ \
?
NN
s t . . cl : VV l O log —
<
^
/
(
dB )
tf n {
P i
j
J
Q L (p) Q > 0
其中 i 表示权重 为 w 的 拉普 拉 斯矩 阵 , 每 条 边 的 权 重 可 表示为 % 。
2 表示生成
O 表 示在 总 功 率 V 被 分 配 后 获 得拉 普拉 斯 矩 阵
’
子空 间 x e f 的 向 量矩 阵 , i )
,
表示 完 成 功 率 分 配 后 的 共 识 权 重 。 解决这种 非线 性优化 问 题 , 我们 依 旧 可 以利 用
5
1
北 京 邮 电 大 学 工 学 硕 士 学 位论文
4 3
.
仿 真 结 果 及 性 能评估
本节我们主要对上 节 所 提 出 的 两 个方案 分 别 进 行 仿 真 评估 和 讨 论 在 仿 真
一
,
4 。
仿 真 参数 如 表 4 -
1 所示
。
表 仿真 参数表
4
-
参 数 描 述
值 |
Pm ax
无人机 的 最大 传输功 率
l OQdB m
B
M
1 MHz
N
追踪无 人机个 数
4
^
信道系数
-
5 0dB
 ̄
 ̄
D mm 防 冲 撞 距 离 20m
D i str i b u t e dC o n s e n s u s
L 5 °
|
L25 — —
U AV l
|
L O O U AV 2
—
-
% / U AV 3
/
0 75
-
U AV 4
—
0 2 5 50 7 5 1 0 0 12 5 1 5 0 1 7 5 2 0 0
t i m e m s
(
)
D i s t r b u t e d C o n s e n s u s w t h re
i i l a y U AV
1 5〇
.
1
E "
U AV l
|
—
U AV 2
U AV 3
—
1 . 0 0
-
丟 I
UA V 4
° 75
'
re a U AV
-
2 y
l
0 2 5 50 7 5 1 0 0 1 2 5 1 5 0 1 7 5 2 0 0
t i m e m
( s
)
图 4 -
5 方案 一
收敛 时 延对 比 图
52
第四章 多 无人机 网 络 中 共识收敛时延分析
c D i st r i b u t e dC o n s e n s u s
0
1 50
-
g
.
U AV 1
 ̄
〇L 2 5 -
C —
U AV 2
u l —
U AV 3
U /
0 75
.
-
/ … …
U AV 4
U
(
I I
I
I I
I
b 0 2 0 40 6 0 8 0 10 0 12 0
t i m e m s (
)
c D i st r i b u t e dC o n s e n s u sw i th
p o w e ra l l ocat o n
i
1 5 0
-
^
*
〇 1 2 5
.
-
—
U AV 1
"
E / U AV 2
—
/
0
c
1
L0°
/
/
- - -
U AV 3
.
07 5 i
.
-
U AV 4
u
」
b O 2 0 40 6 0 8 0 1 0 0 1 2 0
t i m e m s (
)
图 4 6 -
方 案 二收敛 时延对 比 图
图 和图 分 别 为 我 们 所提方 案 和 方 案二 的 共识 收敛 时 延对 比 图
从
一
4 -
5 4 6 -
图 中可以看 , 当 我 们 以 网 络 连通 度 为 优 化 目 标 ,
最大化 夾 (
Z) , 并 分别 从增 减拓
扑 边 以 及 增 减 链路权 重 的 角 度 来优 化 我 们 的 无人 机 网 络部 署 都 可 以 减少 共 识 收
,
敛时延 ,
仿 真 结 果 验证 了 我 们 的 理 论 分 析
。
4 4
. 本章小结
改善共 识 收敛速度 的 具 体 原 因 ,
同 时进行 了 仿真 , 验证 了 我 们 的 分 析及方案 的 有
效性
。
53
北 京 邮 电 大 学 工 学 硕士 学 位 论 文
54
第五章 总结与展望
第五章 总结与 展望
5 1
.
研 究 内 容 总结
。
目 ,
通 过将 目 标 保 持 在 其 视野 内 来跟 踪 地 面 上 的 移 动 目 标 。 与 单无人机相 比 , 团 队式
的 无 人机 在 协 作 任 务 方 面 具 有 显 著 优 势 多 无 人机 协 同 追 踪 , 目 前 受到 了 广泛 的 关
注 。 在 追 踪场 景 中 , 为 了 实 现对 目 标精准 的 追踪 , 有 效 的 分布 式估计 方法 , 也就
是 网 络 共 识 策 略越 来 越 受 到 重 视 。 然而 , 在 多 无 人机追 踪 网 络 中 , 追踪无人机 的
, , ,
无人机来说 也是 个 关键 问 题 和 性 能 指 标 因此 针对 以 上指 标 本文主要提 出
一
。 , ,
了 改 善 追踪 网 络 连 通 度 、 提 升 多 无 人 机 追 踪 网 络 共 识 收 敛 时 延 及 网 络 能 效 的 两种
方案 。 我 们 的 主要 研 究工 作 和 成 果可 以 总 结 如 下
:
, ,
无 人 机 部 署 到 多 无 人 机追 踪 网 络 中 , 以 适应通信 环境 。 通 过 中 继 无 人机 的 轨 迹 设
计 为共 识 算法 性 能 的 改 进 提 供 了 新 的 契 机 基于 该框架 本文分别 提 出 了
种
一
, 。 ,
基于 D QN 的 中 继 无 人 机 部 署 算 法 与 基 于 D Q N 的 中 继 无 人 机 轨 迹 规划 算 法 ,
分
别 优 化 了 网 络 的 共 识 收 敛 时 延 能 效 以 及 追 踪 网 络 的 共 识 成功 概 率 及 网 络 中 断 概
、
率 。
仿真结 果表 明 我们 基于 D QN 的 算法相 比 于 Q
-
l e ar ni n
g 算法 、 随 机 位置 部署
算 法 来 说 都 具 有 更好 的 性 能 , 且 利 用 我 们 的 算 法 寻 找 最佳 部署 位 置 时 , 可以用更
少 的 步 骤 获 得更 高 的 回 报
。
其 次 我 们 以 多 无 人 机追 踪 网 络 为 基 本 部 署 框架 提 出 了 种 基于 M AD Q N
一
, ,
算 法 的 多 无 人 机 轨 迹 和 功 率 分 配 联 合 优 化 方案 以 优 化 网 络 的 共 识 收敛 时 延 和 能
,
效 我们 对 多 无人 机 追 踪 网 络 中 的 共 识 收 敛 时 延 和 能 耗 问 题进 行 了 效 用 函 数 的 合
。
并 , 并利 用 MA D Q N 算法来求解 该 问 题 的 最优策 略 , 通 过 仿 真 对 我们 的 方 案 进
行 了 验证 , 与 其 它 优 化 方法相 比 , 我 们 的 方案具 有 明 显 的 优 势 , 有 效 地改变 了 网
络 的 拓 扑权重 , 同时 , 所 提 出 的 方案 确 实 可 以 有 效 地 减 少 共 识 收敛 时 延 和 网 络 的
能 量消 耗
。
55
北京 邮 电大学 工 学硕士 学 位论文
最后 , 我 们 基 于 前 两个方案 提 升共 识 时 延 的 具 体 原 因 , 利 用 图 论详细分析 了
影 响 多 无 人机 网 络信 息 共识 收敛 时 延 的 影 响 因 素 一
网 络 连通 度 通 过 对 网 络 拉 普
,
拉斯矩 阵 的 第 二最 小 特征值进行仿真 , 网 络 连通 度 确 实 可 以 影 响 共 识 收 敛 时 延
,
且第 二最 小 特征 值越大 , 共识 收敛 时 延越小 。
最后 ,
从 前 两 个 方案 的 优 化 角 度 建
模 、 建 立优 化 问 题 , 仿 真 结 果验证 了 我们 相 应 的 分 析 , 从 原 理 解 释 了 我们 的 方 案
确 实 可 以 减 少 共 识 收敛 时 延
。
综上 所述 , 本 文 主 要 考 虑 在 多 无 人 机 追 踪场 景 下 , 为 了 实现精准追踪 、 快速
共识 , 针对 改 善 追 踪 网 络 的 共 识 收 敛 时 延 及 能 效 问 题 进 行 了 研 究 。 通过对 多 无 人
机追踪 网 络进 行 系 统 建模 分 别 以增 减 网 络拓 扑 边和 增 减 网 络拓 扑 权重两 种 方式 ,
,
提 出 了 优化 共识 收敛时 延和 能 效 的 两 种 方案 此 外 , , 还具体分析 了 影响 共识 收敛
时延 的 具体原 因 , 并给 出 了 相 应 的仿真验证
。
S 2
. 后续工 作 展 望
, ,
略进 行 了 研 究 , 但是 由 于时 间 有 限 , 未 能对 该 问 题 进行 更 深 入 的 研 究 , 现将该 问
题的进 步研宄工作总结如 下
一
:
1
) 考 虑 多 无 人 机之 间 的 任 务 分配
前 本 文 虽 然 考 虑 了 多 无人 机 的 追 踪 但是仅仅 聚焦在 追 的情况 也就
一 一
目 , ,
, 、 ,
也 许存 在 资 源 利 用 效 率 低 的 问 题 因此 未 来 我 们 可 以 考虑 追多 或多追多 的
一
, , ,
场 景 在 这种 情况下 个 有 效 的 追踪 任 务 分 配 是 实 现 多 无 人 机 精准 追 踪 的 关键
一
。 ,
。
在 分布式 的控制 架构 下 , 将 更 加 依 赖 于 无人 机 之 间 可 靠 的 信 息 和 数据 交换 ,
以及
实 时 动 态 的 策 略 变 化 同 时 有 效 的 路径 规划 也 是 实 现任务 分配 的 个重要研 宄子
一
课题
。
2) 考 虑 多 无人 机 对 追踪 目 标 的 精 准 定 位
本文对追踪 目 标 信 息 的 定 位 来 源 于 地 面 中 央控 制 中 心 的 信 息 传 输 , 然而
,
, 目 ,
以省去 些 不 必 要 的 信 息 传输 减少 通信 时 延 前 几 种 定 位 方法 中 多向定
一
, 。
目 , ,
位对 于 精 确 确 定 用 户 目 标 位置非 常 重要 , 对于 这种 方法 , 至 少 需 要 对节 点 与 三个
不 同 的 无人 机 定 位置之 间 的 距离 进 行 三 次估 计 。 距 离 估计通 常 使 用 基 于 时 间 或
( 接收信号强度 )
_
基 于 接 收信 号 强度 ( RS S ) 的 技 术 来完 成 。 同时 , 利 用 无 人机
56
第五章 总 结与 展 望
定位 , 因 为 其在更 高 的 高度 , 阴 影 较少 , 且 满 足视 距 通 信 , 因 此可 能会产生更 高
的 RS S 分辨率
。
3) 考虑 目 标预 测 及 信 息 补 偿 估 计 算 法
本文 在考虑 共识 策 略 的 时 候 , 只 考 虑 了 如 何 通 过 改 变 网 络 连 通 度来 提 升共 识
的 收敛时 延 , 进而 减 少 收 敛 时 延 所 带 来 的 共 识 误 差 , 然而 , 通信 链路时 延 所带来
的 共 识 误 差 并 没有 考 虑 , 因此 , 我 们 可 以 考 虑 用 机器 学 习 的 方 法来对 追 踪 目 标的
移 动 轨 迹 进 行 预 测 也 可 以 在 每 架 无 人 机 上 使 用 滤 波 器 预 测 来 在 其余 无 人 机 的 通
,
57
北 京 邮 电 大 学工 学 硕士 学 位论文
58
参考 文 献
转 文献
[
1
] S on g
Y X ,
i
Q , X i n g X e t a l M u lt i ,
.
-
U AV c o o p e r a ti v e m ult i -
tar
g e t a l l o c at i on m e t ho d b a s e d o n
d i f fe r e n t i a l i t h m [ C ] // 2 0 2 0 3 9 t h
ev o l u t i on a r y a l g o r C h n e s e C o nt r o C o n fe r en c e
i l
(
C C C) . I EE E ,
2 02 0
:
1 65 5 -
1 6 60
.
[
2] L i u X L i u Y C h e n Y R e n fo r c e m e n t l e a r n i n g i n mu
, ,
. i l ti
ple
-
U AV n e t w o r l cs : D e p oy m e n t a n d
l
m ov e m e nt d e s i gn [ J] . I E E E Tr a n s a c t i o n s on Veh i cu l ar Te c h n o l o gy ,
20 1 9 ,
68(8) : 8 0 3 6 8 04 9 -
.
[
3 ] Ze -
l i n gC , Q i W Ye ,
-
q ng
Y R e s e a r c h o n o p t m z at
i i o n m e t h o d o f mu
. i i l ti
-
UAV c o ll ab o r at i v e t a s k
p l a n n i n g [ C ] // 2 0 1 8 I EE E C S AA G u i d an c e ,
N av i
g at i on a nd C o n t r o l C o n fe r e n c e ( C G N CC ) . I EE E
,
20 1 8 1 :
-
6
.
[
4] L i B Fe ,
i Z Zh an g Y
,
. UAV C om m u n i c at i on s fo r 5 G a n d B e
y ond : R e c e nt A d v a n c e s a n d F ut u r e
Tr e n d s [
J
]
. I E EE Int er
n et o f Th ngs i J ou r
n al , 2 0 1 9 224 : 1
-
22 63
.
[
5] Du tt a R ,
S un L P a ck D ,
. A d e c e nt r a l z e d i fo r m at i o n a n d n e t w o rk c o n n e c t i v i t y
t r ac k i ng
c on t r o l l er for
m u l t i p l e u n m a n n e d sy s t e m s [ J ] . I EEE Tr a n s ac t i o n s on C o nt r o l S y s t e m s Te c hn o l o g y ,
20 1 7 , 2 6(6)
:
22 0 6 2 2 -
1 3
.
[
6] S o ng
Y X Q X ,
i
,
i ng
X ,
et al . UAV c o o p e r at i ve m u l t i
-
t a rg e t a l l o c at i o n m e t h o d b a s e d o n d i fe re n t i a l
C on fer e n c e ( C C C ) E EEE
e v o lut i o n ar y a l
g o r it h m [ C 2 0 2 0 3 9 th Ch nese C on ro l 20 2 0 65 5 660
-
// i t . : 1 1
.
] ,
[
7] Cu i Y Re n ,
J
,
D u W et
,
al . U AV tar
g et tr ac ki ng a l g or i tla m b a s e d o n t a s k a l l o c at i o n c o n s e n s u s f J ]
.
Jo urn a l o f S
yste m s En g i n e e r i ng a n d E l e c t ro n i c s ,
20 1 6 ,
2 7 (6 ) : 1 207 -
1 2 1 8
.
[
8] Yu Z ,
Wa ng Z G u a r a n
. te e d c o s t c o n s e n s u s fo r mu l t
i p
l e g en e r a l d y n a m i c s y s t em s w i t h s w i t c h i n g
t op o l o g i e s f J] . I E EE A c c e s s
,
20 1 9 ,
7 : 3 70 8 8
-
3 70 9 9
.
[
9] J i an H R on gha o Z H
,
. i er a r c h i c a l C o n s e n s u s P r o b l e m v i a G rou p I n fo r m at i o n Ex c h a n g e [ J ] . I E EE
Tr a n s a c t i on s o n Cy b er
n et i cs ,
20 1 8 ,
49 23 5 5 :
-
23 6 1
.
[
1 0 ] Sutt o n R S ,
B a Rt o A G R e
. i n fo rc e m e nt n n g A n I nt r o d u c t
L e ar i : i o n [ J] . I EE E Tra n s a c t i on s on N eu r a
l
N et w o k s r
, 1 99 8 , 9 (5) : 1 054
.
[
1 1
]
L u o n g N C H o a n g D T G on g S e t a , ? 9
l . A pp l i c at i on s o f d e e p r e n for c e m e n t l e a r
n ingin
i
c o mmu n i c at i o n s a n d n et w o r k n g i : A svirv e
y [ J] . I E EE C omm u n i c a ti o n s S u r v ey s & Tut o r i als ,
20 1 9
,
2 1
(
4) : 3 1 33
-
3 1 74
.
[
1 2 ] C hi H L C h e n Z Ta n g
,
,
J, et a l . En e rgy E f
ic -
i e nt U AV C o nt ro l fo r E fe c t i ve an d Fa i r C o mm u n i c at i on
C ov e r a g e : A D e e p R e n fo r c e m e nt L e a r
n i i n g A p pr o a c h [ J ] I E EE J ou r n a l on S e l e c t e d A re a s i n
.
C om m un i c at i o n s ,
20 1 8 , 3 6 (9
)
: 205 9 20 70 -
.
[
1 3
]
L uX i
, L i u Y C h e n Y Re n fo r c e m a i t l e a r n n g i n m u l t i p l e
,
. i i
-
UAV n e t w o rk s D ep o y m e n t a nd
: l
59
北 京 邮 电大 学工学 硕士学位论文
1 li i . i
[ , 5
20 1 8 1 :
-
6
.
5 ] S in
g h S K A g r aw a l S i n g h e t a l O n UAV s e l e c t i o n a n d p o s i t i o n b a s e d t h r o ug h p ut
-
1
.
[ j
m a x i m zat i o n i i n mu l t i
-
UAV re l a
y ng n et w o i ks [ J]
i
. I EEE A c ce s s
,
20 20 ,
8 1 44 0 3 9
:
-
1 44 0 5 0
.
[
1 6 ] Liu X , L i u Y C he n Y R e n fo r c e m ent
,
. i l e ar
n i ng i n m u l t i p le
-
UAV n e t w o rk s : D e p l oy m e n t a n d
m o v e m en t d e s i g n [ J ] . I EEE Tr a n s a c t i o n s on Ve h i c u l a r Te c h n o l o g y, 2 0 1 9 ,
6 8 (8 ) : 8 03 6 -
8 04 9
.
1 7 ] C h i H a ro l d , L i u , e t a l E n e r -
Ef
iB c i en t U AV C o n t r o l fo r E f fe c t i v e a n d F a i r C o m m u n i c a t i o n
gy
.
[ ,
C ov e r a g e : A D e e p Re i n fo r ce m e n t L e a r n i n g A pp r o a ch [ J ] I E EE J ou r
n a l on S e . l e c ted A re a s i
n
C o m mun i c at i o n s , 2 0 1 8, 36
(
9) 2 0 5 9 20 7 0
:
-
.
8
S h i X B i B Z h a n g Q e t a l C o n s e n s u s b a s e d m u l t i u av t a rg e t t
a ck i n g w it h c o m m u n i c at i on
- -
1 .
[ ] , , ,
d e l ay s [ C ] // 2 0 n at i o n a l C o n fe r e n c e o n I n t e l l i
7 9 t h I n t er
g e n t Hum a n M ac h n e S y s t em s a nd
-
1 i
Cy b er
n et i cs(I HM S C ) . I EEE ,
20 1 7 ,
2 : 332 -
336
.
[
1 9 ] M a o X G u Y Y n W Wa k p ro x i m a l g r a d i e n t A n e n e i g y e f
, ,
i c i e nt a l g o r it hm fo r c on s e n s u s
i . l :
-
o pt m i za t i o n [ J]
i . I EEE I n t er
net o f Th ng s i Jour
n al , 2 0 1 8 ,
6 (2 ) : 2048 -
2 06 0
.
[
20
]
Yu Z Wa n g Z G u a r a n te e d C o s t C o n s en s u s
,
. for Mu lt i
p le G e n er a D y n a m l ic S y s t em s W it h S w i tc h n g
i
To p o l o gie s [ J] . I EEE A c c e s s
,
20 1 9 ,
7 3 7088
:
-
3 709 9
.
[
2 1
]
HouJ , Zh en g R H . i e r a rc h i c a l c o n s e n s u s
p ro
b l em v a g roup i n fo r m at i o n ex ch a n g e [ J ] I EEE
i
.
tr a n s a c t i o n s o n c y b er n e t i c s ,
20 1 8 ,
4 9 (6 ) : 23 5 5 23 6 -
1
.
P2 ] H ao L , Q i X , Ya n g Z . To p o l o g y o p t m i s e d f
i xe d i
-
ti m e c o n s e n s u s fo r mu l t i -
UAV sy s t em in a
m u l t i p a t h fa d ng c h a n n e l f J ] i . I E T C o m m un i c at i on s ,
2 020 ,
1 4( 1 1
)
: 1 73 1
-
1 739
.
[
2 3 ] Tr i m b l e J,
P ac k D Ru b ,
l e Z Ad . i s tri b u te d s
y s t e m fo r c o n n ec t i v i y
t
tr a c k i n g w i t h u a v s [ C ] / /2 0
1 9 I EE E
Na ti o n al A er o s p ac e an d E l e c t r on i c s C o n fer e n c e ( N A EC O N ) . I EEE 2 0 1 9 ,
: 1 55
-
1 62
,
[
2 4] Zha ng
Y Zha ng B X Y
,
,
i
,
e t al . Tr a n s m itt e r S e l e c t i on a i d e d
-
A d ap ti ve C o n s e n s u s B a s e d D at a -
S h ar i ng
fo r U AV S w a nn s [ J ] . I EE E A c ce s s
,
20 1 9 ,
P P(9 9) : 1
-
L
2 5 ]K N go c T H K aw a n hi M A S y n ch r o n zin g A
pp r o a c h fo r N on Un
[
i k u ch i S ,
,
is
, et al . i
-
i fo n n Ti m e
-
Veh i c l e P ow e r a n d Pr o
pu l s i o n C o n fe r e n c e ( V P P C )
. I EEE ,
20 1 9 : 1
-
6
.
2 6 ]SuH Zh a n g T Q an L C o n s e n s u s co n r o l s t r at e n v er t er a r c ond it i o n i n
et a
gy o f g g r o up fo r
i l t i i
.
[ , , ,
r en e w a b l e e ne i g y
c o n s u m p t i on b a s e d o n d i s t r i b u t e d ad
^t i v e s y st e m [ C ] // 2 0 1 7 92 :
-
96
.
[
2 7 ] S un C ,
Ya n g C , F an S et a l 5
. Des i
g n o f d i s t r i b ut ed c o n s en s u s K a l m a n f i lt e r b a s e d o n en erg y
o p t i m i z at i o n [ C ] / / P r o c e e d i n g s o f t he 3 3 rd Ch i nes e C on t ro l C o n fe r e n c e . I EEE ,
20 1 4 : 7 1 33
-
7 1 3 8
.
60
参考文 献
[
2 8 ] C h en J
,
Ye F ,
Ji an
g
T ,
e t al . UAV -
e n ab l e d W i re l e s s E n e rg y Tr a n s m
i s s i o n a n d I n fo nn at i o n Co l l
e c t i on
B as e d on C o n s e n s u s b a s e d -
B un d l e A l
g or
i t h m [ C ] // 2 0 2 0 9 t h As i a -
P ac i f i c C o n fer e n c e o n A n t enn a s
and Pro
p ag at i o n (
A P CA P) . 2 0 20
.
2 9 ] M a o X , G u Y Y i n W Wa l k ro x im al a d i e n t A n en e i ^ y e f
if i c i e nt al go r i t
i i m fo r c o n s e n s u s
gr
-
p
. :
[ ,
o p t i m i z at
io n [ J] . I EE E I n ter
n et o f T h ng s i J o urn al ,
20 1 8,6
(
2
)
: 2 04 8 2060 -
.
[
3 0 ] Lu X X , i ao L ,
Da C i
,
etal . UAV A -
i d e d 5 G C o mm u n i c at i o n s w i t h
D e ep R e
i n fo r ce m e n t Le arn i ng
A ga i n st Ja mm i n
g [ J] . 2 0 1 8
.
[
3 1
] Sh am s o sh o ara A Kh a ,
l e di M A fg h a h F
, s et a l . D i st r i b ut e d c o o
p e r a t i v e s p e c t r um s h a r i n g n u a v
i
n e t w o rk s u s n g mu l t i a g e n t r e n fo r c e m e n t I e a m n g [ C ] / / 2 0
i
-
i i 1 9 1 6 t h I EE E A nn u a l C o n s um e r
C o mm u n i c at i o n s & N e t w o rk i ng
C o n fe r en c e (
C CN C ) . I E EE ,
20 1 9 : 1
-
6
.
[
32
]
O i all i ta U ,
S a ad W B et ,
ts t ett er C Ce . ll u l ar c o nn e ct ed-
U AV s o v er 5 G : D eep
r e i n fo r c e m e n t l e a r n i n
g
fo r i nt e r fe r e n c e m a n a g e m en t [ J
]
. ar X i v p r e p r nt
i ar X i v : 1 80 1 . 05 500 ,
20 1 8
.
[
33
]
L i u Y Q ,
i n Z Ca Y ,
i
,
e t al . UAV c o m m u n i c at i o n s b a s e d o n n o n o r h o g o n a l m u lt i p e a c c e s s [ J ]
-
t l . I E EE
W i rel e s s C o mm un i c at i o n s , 2 0 1 9 ,
26( 1
)
: 5 2 57-
.
[
3 4 ] Li u C H ,
C h e n Z Ta n g
,
J,etal . En e rg y -
i c i e nt
e ff UAV c o nt r o l fo r e f f
e c t i v e a n d fa i r c om m u n i c at i o n
c ov er a
ge : A de e p r e n fo rc em e n t i l ea r
n i ng a p p r o a c h f J ] I E EE J o ur
na . l onS e l e ct e d A re as i
n
.
O S a b e r R , M u r r ay R M C o n s en s u s
3 5 ] fat i
p r o b l e m s n n e t w o rk s o f ag e n t s w i t h s w i t c h n g t o p o l o ^
-
l . i i
[
a nd ti m e d e l ay s [ J ]
-
. I EEE Tr a n s ac t i on s o n Au t o m a t i c C o nt r o l
,
2 0 04 ,
49 9
( )
: 1 520 -
1 533
.
[
36
] O fat i
l
-
S a b er R Mu r r ay R M C o n s e n s u s
,
.
p r o b l e m s i n n e t w o rk s o f a g ent s w i t h s w i t c h n g t o p o l o g y
i
an d ti m e d e l ay s [ J ]
-
. I E E E Tr a n s a c t i on s o n Au t o m at i c C o n t r o l ,
2 0 04, 49 (9
)
; 1 5 20 -
1 533
.
[
37
] Z h o u Z F en g
J
, ,
G uB , et a l . W he n m o b il e c r o w d s ens i n g m e e t s UAV : En e rgy e ffi c i e n t t a s k
-
as s i
g n m e n t a nd
ro ut e p an ni n g [J ] I . I EEE Tr a n s a ct i o n s o n C o m m u n i c at i o n s , 2 0 1 8 , 6 6
(
1 1
)
: 5 5 2 6
-
553 8
.
[
3 8] H ou J , Z he n g R H i e r a r c h i c a l c o n s e n su s p r o b l e m v i a g r o u p n fo r m at i o n e x c h a n g e [ J ]
. i . I EEE
tr a n s a c t i on s o n c
yb er
n eti c s ,
20 1 8, 49 (6) : 23 5 5 23 6 -
1
.
[
39
]
Me s b ah M On i . a dy n a m i c e x t e n s i o n o f t h e
t h e o r y o f g r ap h s f C l /
y ^ ro c e e d i n g s o f t he 2 0 02 A m er i c an
C o n t ro C o n fe re n c e l
(
i EE C a
f t . N o CH 3 7 3 0 . 1
)
. I EEE ,
2 0 02 ,
2 : 1 23 4 -
1 23 9
.
4 0 ] Z H AN G Q i n e Z H U H u ay o n g a nd S HE N L nch en g A S u r v ey o f C o n s e n s u s T h e o r y n Mu
-
[ g j
i
,
i . i l ti
A g ent S
y s t em [ C ] . N av i
g at i o n an d Con tr o l C o n fe r en c e , 2 0 1 0 : 4 0 46 -
.
[
4 1 ]ShiX ? B i B , Z ha n g Q , et a l C o n s e n s u s b a s e d mu l t i u a v t a rg e t t r ac k i n g w i t h c o mm u n i c at i o n
.
-
-
d e l ay s [ C ] / /2 0 1 n at i o n a l C o n fe r e n c e o n I nt e l l i g e nt H u m a n
7 9 t h I n t er
-
Mac h i n e Sy st em s an d
.
6
1
北 京 邮 电 大 学工 学 硕 士 学 位 论 文
[
4 2 ] Hao L , Q i X ,
Ya n g Z . Top o l o gy op t i m i s e d f
ixe d -
ti m e c o n s e n s u s fo r m u l t i -
UAV s y s t em i na
mu l t i p at h fa d n g i
c h a nn e l [ J ] . I E T C o m m un
i c a ti on s ,
2 02 0 ,
1 4( 1 1
)
: 1 73 0 -
1 73 8
.
62