Q Fanet

You might also like

Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 10

Q-FANET: Cải thiện giao thức định tuyến dựa trên Q-learning cho FANET

FANETs (Flying Ad-Hoc Networks) gồm nhiều UAVs tạo ra một mạng lưới với nhiều
các node có tính di dộng cao. Như vật đòi hỏi cần một giao thức có thể tự điều chỉnh và
độc lập giải quyết vấn đề, có nghĩa là giao thức định tuyến của FANETs cần có khả năng
phát hiện một node lân cận ổn định để gửi dữ liệu bằng cách phát hiện thay đổi trong môi
trường. Q-learning là một kỹ thuật học tăng cường tự điều chỉnh nhận phản hồi đầu vào
từ môi trường, góp phần cung cấp một thiết kế định tuyến tập trung vào khả năng thích
ứng.
FANETs có tính thay đổi nhanh chóng và liên tục do sự di chuyển của các UAVs, thay
đổi của môi trường, thay đổi nhiệm vụ … nên nếu các thông số từ Q-learning như tỷ lệ
học và hệ số chiết khấu được cài cố định thì hiệu quả của việc chọn hành động tối ưu nhất
sẽ giảm, khiến cho liên kết được chọn chỉ có khả năng tối thiếu để thiết lập kết nối với
node được chọn. Phương pháp này hiện nay được áp dụng cho phần lớn các giao thức
định tuyến dựa trên Q-learning và làm hạn chế hiệu suất của chúng. Dựa trên những hạn
chế này, giao thức định tuyến mới dựa trên Q-learning gọi là Q-FANET được đề xuất
nhằm giải quyết các vấn đề hiện có về:
- Giảm độ trễ và độ biến động: không cần phải dựa vào bảng định tuyến cố định, tự
động tìm ra lộ trình định tuyến tối ưu dựa trên ràng buộc về độ trễ thấp. Q-learning cho
phép hệ thống tự học từ kinh nghiệm và điều chỉnh hành vi của mình để đạt được mục
tiêu tối ưu hóa, trong trường hợp này là giảm độ trễ của dữ liệu truyền dẫn
- Xem xét các tập cuối với trọng số khác nhau (dựa trên kinh nghiệm gần nhất): Trong
Q-learning, việc cập nhật các giá trị Q (giá trị ước lượng cho hành động) thường dựa trên
kinh nghiệm gần nhất. Tuy nhiên, việc này có thể dẫn đến việc bỏ qua thông tin từ các tập
trước đó, có thể làm giảm độ chính xác của quyết định. Vì vậy, giải pháp đề xuất trong
bài báo là sử dụng một số lượng hữu hạn các tập cuối cùng để cập nhật các giá trị Q.
Bằng cách này, thông tin từ nhiều tập hơn được tính toán và sử dụng, tạo điều kiện cho
quyết định định tuyến chính xác hơn và hiệu suất tăng lên
- Tinh chỉnh tham số giao thức được cải tiến dựa trên điều kiện kênh: Chất lượng
truyền tải có thể biến động do nhiều yếu tố như nhiễu, suy hao tín hiệu, và sự cạnh tranh
từ các thiết bị khác trong mạng. Điều này có thể ảnh hưởng đến độ trễ của việc truyền dữ
liệu, ngay cả khi lộ trình tối ưu đã được chọn. Do đó, giải pháp trong bài báo xem xét các
điều kiện kênh này và sử dụng chúng như một yếu tố để điều chỉnh các tham số trong
giao thức định tuyến dựa trên Q-learning. Bằng cách này, giao thức có thể tự động thích
ứng với biến động trong chất lượng truyền tải và tối ưu hóa hiệu suất truyền dữ liệu trong
mạng.

1.Các giao thức định tuyến


1.1.Giao thức Static

 Ưu điểm:
o Nhẹ và được thiết kế cho các mạng có cấu trúc cố định.
o Ít tốn tài nguyên.
 Nhược điểm:
o Không chịu lỗi (fault-tolerant): Khi mạng gặp sự cố, phải đợi đến cuối hoạt
động để cập nhật bảng định tuyến, làm cho chúng không phù hợp với môi
trường động.
 Ví dụ: Load-carry-and-deliver (LCAD) [16] và Data Centric Routing (DCR) [17].

1.2.Giao thức Proactive (Giao thức định tuyến chủ động)

 Đặc điểm:
o Các giao thức này lưu trữ thông tin định tuyến trong mỗi UAV thuộc mạng.
o Mỗi nút tự cập nhật bảng định tuyến của mình để phù hợp với những thay
đổi trong cấu trúc mạng.
o Do đó, có thể chọn các đường dẫn định tuyến để gửi gói tin với thời gian
chờ tối thiểu.
o Được sử dụng phổ biến do phù hợp với các tình huống mạng có tính di
động cao.
 Nhược điểm:
o Yêu cầu nhiều gói tin điều khiển để thiết lập đường dẫn, làm tăng chi phí
truyền thông.
 Ví dụ: Destination Sequenced Distance Vector (DSDV) [19] và Optimized Link
State Routing Protocol (OLSR) [20].

1.3.Giao thức Reactive (Giao thức định tuyến phản ứng theo yêucầu)

 Ưu điểm:
o Ít chi phí truyền thông do chỉ tạo thông tin định tuyến khi có liên lạc giữa
hai nút.
 Nhược điểm:
o Thời gian trễ cuối-cuối (end-to-end delay) tăng do cần thời gian xử lý để
thiết lập đường dẫn.
 Ví dụ: Dynamic Source Routing (DSR) [22] và Ad-hoc On-demand Distance
Vector (AODV) [23].
1.4.Giao thức Hybrid (Giao thức kết hợp giữa Proactive và Reactive)

 Đặc điểm:
o Kết hợp các ưu điểm của giao thức chủ động và phản ứng.
o Giúp khắc phục hạn chế về thời gian tìm đường và chi phí tin nhắn điều
khiển của từng loại riêng biệt.
 Ví dụ: Zone Routing Protocol (ZRP) và Temporarily Ordered Routing Algorithm
(TORA) [25].

1.5.Giao thức Position-based (Giao thức định tuyến dựa trên vị trí)

 Ưu điểm:
o Khắc phục hạn chế của các giao thức chủ động và phản ứng, đặc biệt là
việc sử dụng bảng định tuyến tĩnh và thiết lập đường dẫn trước mỗi lần
truyền gói tin.
 Ví dụ: Greedy Perimeter Stateless Routing (GPSR) [27].

1.6.Giao thức Hierarchical (Giao thức định tuyến phân cấp)

 Đặc điểm:
o Sử dụng các cụm (cluster) để thực hiện khám phá đường dẫn.
 Ví dụ: Mobility prediction clustering (MPC) [28] và Clustering Algorithm of
UAV Networking (29).

2. Học tăng cường RL


Học tăng cường là một phương pháp trong trí tuệ nhân tạo mà một hệ thống học từ các
tương tác với môi trường để thực hiện một nhiệm vụ cụ thể, mà không cần được
lập trình cụ thể cho mỗi bước. Trong đó, Q-learning là một thuật toán học tăng
cường được sử dụng để đào tạo các tác nhân (agent) học cách hành động
trong môi trường để tối đa hóa phần thưởng.

Thuật toán Q-learning tập trung vào việc học một hàm giá trị hành động (Q-value) cho
mỗi cặp trạng thái-hành động của một hệ thống. Q-value đo lường giá trị dự đoán của
một hành động trong một trạng thái cụ thể. Thuật toán này cập nhật Q-value dựa trên
phần thưởng nhận được và ước tính giá trị tương lai của các trạng thái kế tiếp.
 Environment (Môi trường): là không gian mà máy tương tác
 Agent (Máy): là chủ thể tương tác với môi trường qua hành động
 Policy (Chiến thuật): là chiến thuật mà máy sử dụng để đưa ra hành động
 State (Trạng thái): mô tả trạng thái hiện tại của máy
 Reward (Phần thưởng): phần thưởng từ môi trường tương ứng với hành động
được thực hiện
 Action (Hành động): là những gì máy có thể thực hiện

Chúng ta sẽ bắt đầu từ state S(t), tại trạng thái này, agent sẽ dựa trên policy đã
được thiết kế sẵn để đưa ra một action A(t) trong environment. Environment sau
khi quan sát hành động sẽ chuyển đổi sang trạng thái tiếp theo S(t+1) đối
với agent và đồng thời dựa theo hành động mà agent đã thực hiện, environment sẽ
đưa ra phần thưởng R(t) tương ứng. Agent sẽ lặp đi lặp lại qui trình này cho đến
khi tìm được chuỗi những hành động tối đa hóa phần thưởng được nhận.
3. Giao thức Q-Fanet
3.1. Tổng quan về Q-FANET
Q-FANET là một giao thức định tuyến dựa trên Qlearning được cải tiến cho FANET

Figure 1. Sơ đồ Q-FANET hiển thị các mô-đun bên trong của nó


Hình 1: Sơ đồ Q-FANET hiển thị các mô-đun bên trong của nó

𝑄(𝑆, 𝐴) là hàm giá trị hành động (action-value function) trong thuật toán Q-Learning
được sử dụng để huấn luyện các tác nhân (agent) học cách thực hiện các hành động tối ưu
trong môi trường của chúng.

𝑄(𝑆, 𝐴) ← 𝑄(𝑆, 𝐴) + 𝛼(𝑅 + 𝛾𝑚𝑎𝑥𝑄(𝑆′, 𝐴′) - 𝑄(𝑆, 𝐴)) (1)

 𝑆: Trạng thái hiện tại của tác nhân.


 𝐴: Hành động hiện tại được chọn theo một chính sách cụ thể.
 𝑆′: Trạng thái tiếp theo mà tác nhân sẽ chuyển sang.
 𝐴′: Hành động tốt nhất tiếp theo để chọn bằng cách sử dụng ước tính giá trị Q hiện
tại.
 𝑅: Phần thưởng nhận được từ hành động hiện tại.
Các tham số quan trọng khác của hàm cập nhật này là:

 Hệ số giảm dần cho các phần thưởng tương lai (𝛾): giá trị được đặt giữa 0 và 1.
Các cách tiếp cận Q-learning thông thường coi các phần thưởng trong tương lai ít
giá trị hơn các phần thưởng hiện tại, do đó chúng cần được giảm dần.
 Tốc độ học (𝛼): bước thực hiện để cập nhật ước tính 𝑄(𝑆, 𝐴).

Giá trị 𝑄(𝑆, 𝐴) cao cho thấy việc thực hiện hành động 𝐴 trong trạng thái 𝑆 có khả
năng dẫn đến phần thưởng cao hơn trong tương lai. Ngược lại, giá trị 𝑄(𝑆, 𝐴) thấp cho
thấy việc thực hiện hành động 𝐴 trong trạng thái 𝑆 có khả năng dẫn đến phần thưởng
thấp hơn trong tương lai.

3.2. Mô đun Tìm kiếm các định tuyến lân cận

Chức năng:

 Giữ cho thông tin định tuyến được cập nhật.


 Phát hiện các nút lân cận.
 Cung cấp thông tin về các nút lân cận cho mô-đun Quyết định Định tuyến.

Hoạt động:

 Cập nhật vị trí của các nút thường xuyên:


o Tần suất cập nhật mặc định là 100ms.
o Các nút tự động gửi thông tin vị trí của mình cho các nút khác.
 Xử lý trường hợp mất liên lạc với nút:
o Nếu một nút không gửi thông tin vị trí trong 300ms (thời gian hết hạn), các
nút lân cận sẽ xóa tuyến liên quan đến nút đó khỏi bảng định tuyến.
 Giao tiếp bằng gói tin HELLO:
o Các nút định kỳ phát sóng gói tin HELLO để thông báo cho các nút khác về
sự hiện diện của mình.
o Gói tin HELLO chứa các thông tin sau:
 Vị trí địa lý của nút.
 Mức năng lượng.
 Mô hình di chuyển.
 Độ trễ xếp hàng.
 Tốc độ học tập.
 Giá trị Q.
 Cập nhật bảng hàng xóm:
o Khi nhận được gói tin HELLO, các nút sẽ sử dụng thông tin trong gói tin để
xây dựng và duy trì bảng hàng xóm của mình.

Mục đích:

 Giữ cho mạng luôn sẵn sàng truyền dữ liệu bất cứ lúc nào.
o Mô-đun Khám phá Hàng xóm hoạt động liên tục, ngay cả khi đang diễn ra
phiên truyền dữ liệu.
 Cung cấp thông tin về các tuyến tốt nhất cho mô-đun Quyết định Định tuyến để
đưa ra lựa chọn đường truyền phù hợp.

3.3. Mô đun Quyết định định tuyến

Tổng quan:

 Mô-đun Quyết định Định tuyến (Routing Decision Model) nhận thông tin về các
tuyến có sẵn và chọn tuyến phù hợp để một nút nhất định truyền dữ liệu.
 Mô-đun này bao gồm hai thành phần phụ:
o QMR: Cải thiện khả năng phản hồi định tuyến bằng cách điều chỉnh thích
ứng các tham số Q-Learning.
o Q-Learning: Chọn tuyến dựa trên phần thưởng (reward).

Hoạt động:

 Mô-đun chỉ hoạt động khi danh sách các nút lân cận khả dụng không rỗng (tức là
không có vấn đề về lỗ định tuyến).
 Sử dụng kết hợp hai thuật toán con: Q-Learning+ và Q-Noise+.

3.3.1 Mô-đun con Q-Learning

Thuật toán con Q-Learning+:

 Cải thiện thuật toán Q-Learning tiêu chuẩn bằng cách:


o Chỉ xem xét một lượng hữu hạn các episode trước đó (được xác định bởi
giá trị lookback (𝑙)).
o Gán trọng số cao hơn cho các episode gần đây hơn.
o Không sử dụng hệ số chiết khấu (𝛾) vì nó không ảnh hưởng đến giá trị Q
được tính toán.
 Công thức tính toán giá trị Q tại thời điểm 𝑡 + 1 được thể hiện trong phương trình:

 𝛼: Tốc độ học tập.


 𝑙: Giá trị lookback.
 𝑤𝑡-𝑖: Trọng số của episode thứ 𝑖.
 𝑟𝑡-𝑖: Phần thưởng của episode thứ 𝑖.
 𝑟𝑡(𝑎𝑡): Phần thưởng của hành động 𝑎𝑡 trong episode hiện tại.

Thuật toán con Q-Noise+:

 Cải thiện Q-Learning+ bằng cách:


o Cân nhắc thêm chất lượng truyền tải (dựa trên Tỷ lệ tín hiệu trên nhiễu cộng
trên giao thoa (SINR) của kênh).
o Sử dụng chính sách 𝜖-greedy để cân bằng giữa khám phá (exploration) và
khai thác (exploitation).
 Tính toán phần thưởng được điều chỉnh theo trọng số của SINR trong kênh truyền.

(một thước đo cho chất lượng tín hiệu. Nó đo lường sự kháng nhiễu và sự giao
thoa giữa tín hiệu mong muốn, tín hiệu nhiễu và tín hiệu gây nhiễu từ các
nguồn khác trong môi trường)

Lợi ích của Q-FANET:

 Kết hợp các ưu điểm của QMR và Q-Noise+ để đưa ra lựa chọn tuyến tốt hơn.
 Cân bằng giữa khám phá và khai thác bằng chính sách 𝜖-greedy.
 Điều chỉnh hàm thưởng để đưa chất lượng kênh truyền vào quá trình ra quyết định
định tuyến.

3.3.2. Hàm thưởng


Hàm Thưởng (Reward Function) trong Q-FANET

Trong Q-FANET, bảng thưởng (R-Table) được đề xuất để lưu trữ các ô thưởng. Giá trị
khởi tạo của các ô thưởng là 0. Sau mỗi lần dữ liệu được chuyển tiếp từ nút 𝑖 đến nút 𝑗,
giá trị của bảng R được cập nhật theo công thức (4):
𝑅(𝑠, 𝑎) = {
𝑟_min = -100, nếu liên kết (𝑖, 𝑗) là cực tiểu cục bộ
𝑟_max = 100, nếu liên kết (𝑖, 𝑗) dẫn đến đích
50, trong các trường hợp khác}

 𝑅(𝑠, 𝑎): Hàm thưởng phụ thuộc vào trạng thái (𝑠) và hành động (𝑎) được thực hiện
bởi tác nhân (agent), tương ứng với một nút trong mạng.
 𝑠_i: Trạng thái hiện tại được liên kết với gói tin tại nút 𝑖.
 𝑎_i,𝑗: Hành động chuyển tiếp gói tin từ nút 𝑖 sang nút lân cận 𝑗, sử dụng liên kết (𝑖,
𝑗), làm thay đổi trạng thái từ 𝑠_i sang 𝑠_𝑗.

Giải thích các giá trị thưởng:

 𝑟_max = 100: Giá trị thưởng tối đa được áp dụng cho liên kết (𝑖, 𝑗) khi nút tiếp
theo 𝑗 là nút đích.
 𝑟_min = -100: Giá trị thưởng tối thiểu được sử dụng khi nút 𝑖 được xác định là cực
tiểu cục bộ, nghĩa là tất cả các nút lân cận của nó đều cách xa đích hơn chính nó.
 50: Giá trị thưởng mặc định được sử dụng trong mọi trường hợp khác. Ví dụ,
trường hợp này xảy ra khi nút 𝑗 là một nút trung gian trên đường đến đích.
3.3.3. Mô-đun con QMR
1. Cơ chế Trừng phạt:

a) Xử lý Lỗ hổng Định tuyến:

Khi nút j phát hiện tất cả các nút lân cận đều xa đích hơn chính nó, nó báo cáo "lỗ hổng
định tuyến" cho nút trước đó i.
Nút i gán giá trị phần thưởng tối thiểu (r_min) cho liên kết i,j và cập nhật giá trị Q
tương ứng để ngăn chặn việc sử dụng liên kết này trong tương lai.
b) Xử lý Nút Lân cận Bị lỗi:

Nếu nút i không nhận được gói ACK từ nút j, nó nghi ngờ j bị lỗi và áp dụng hình phạt
tương tự như trường hợp "lỗ hổng định tuyến".
2. Giới hạn Tốc độ:

a) Tính toán Giới hạn:

Giới hạn tốc độ cho liên kết i,j được xác định bởi công thức (5) dựa trên độ trễ và
khoảng cách giữa các nút và đích (D).
Công thức (6) đảm bảo giới hạn tốc độ luôn dương và hợp lý.
b) Ưu tiên Tốc độ:
Q-FANET ưu tiên các liên kết có độ trễ thấp để đảm bảo truyền dữ liệu nhanh chóng.
Giới hạn tốc độ giúp UAV di chuyển chậm hơn trên các liên kết có độ trễ cao, cải thiện
độ tin cậy truyền tải.

3.4 Ví dụ về hoạt động của FANET


Bài báo này đề xuất Q-FANET, một giao thức định tuyến dựa trên Q-learning cải tiến
cho FANETs. Phương pháp được đề xuất đã kết hợp các kỹ thuật và yếu tố hàng đầu
được sử dụng trong hai giao thức định tuyến khác nhau sử dụng Học tăng cường: QMR
và Q-Noise+ vào một giao thức mới. Bằng cách kết hợp và điều chỉnh các yếu tố của các
giao thức cơ bản này thành kiến trúc giao thức mới được tưởng tượng, mục tiêu là đề xuất
một giao thức phù hợp hơn với hành vi động của FANETs, cải thiện độ tin cậy và hiệu
suất của mạng.
Hướng phát triển trong tương lai bao gồm xử lý các vấn đề khác, như tiêu thụ năng
lượng, một mối quan tâm cần thiết đối với các UAV nhỏ với tài nguyên năng lượng hạn
chế. Việc điều chỉnh tham số nội bộ trực tuyến là một hướng đi có thể để tăng cường giải
pháp đề xuất. Các mẫu di chuyển cụ thể cũng là điều quan tâm cho các thử nghiệm thám
hiểm trong tương lai cũng như các điều chỉnh tiếp theo của giải pháp đề xuất để hỗ trợ
các mạng bao gồm các UAV có tốc độ cao.

You might also like