Professional Documents
Culture Documents
Q Fanet
Q Fanet
Q Fanet
FANETs (Flying Ad-Hoc Networks) gồm nhiều UAVs tạo ra một mạng lưới với nhiều
các node có tính di dộng cao. Như vật đòi hỏi cần một giao thức có thể tự điều chỉnh và
độc lập giải quyết vấn đề, có nghĩa là giao thức định tuyến của FANETs cần có khả năng
phát hiện một node lân cận ổn định để gửi dữ liệu bằng cách phát hiện thay đổi trong môi
trường. Q-learning là một kỹ thuật học tăng cường tự điều chỉnh nhận phản hồi đầu vào
từ môi trường, góp phần cung cấp một thiết kế định tuyến tập trung vào khả năng thích
ứng.
FANETs có tính thay đổi nhanh chóng và liên tục do sự di chuyển của các UAVs, thay
đổi của môi trường, thay đổi nhiệm vụ … nên nếu các thông số từ Q-learning như tỷ lệ
học và hệ số chiết khấu được cài cố định thì hiệu quả của việc chọn hành động tối ưu nhất
sẽ giảm, khiến cho liên kết được chọn chỉ có khả năng tối thiếu để thiết lập kết nối với
node được chọn. Phương pháp này hiện nay được áp dụng cho phần lớn các giao thức
định tuyến dựa trên Q-learning và làm hạn chế hiệu suất của chúng. Dựa trên những hạn
chế này, giao thức định tuyến mới dựa trên Q-learning gọi là Q-FANET được đề xuất
nhằm giải quyết các vấn đề hiện có về:
- Giảm độ trễ và độ biến động: không cần phải dựa vào bảng định tuyến cố định, tự
động tìm ra lộ trình định tuyến tối ưu dựa trên ràng buộc về độ trễ thấp. Q-learning cho
phép hệ thống tự học từ kinh nghiệm và điều chỉnh hành vi của mình để đạt được mục
tiêu tối ưu hóa, trong trường hợp này là giảm độ trễ của dữ liệu truyền dẫn
- Xem xét các tập cuối với trọng số khác nhau (dựa trên kinh nghiệm gần nhất): Trong
Q-learning, việc cập nhật các giá trị Q (giá trị ước lượng cho hành động) thường dựa trên
kinh nghiệm gần nhất. Tuy nhiên, việc này có thể dẫn đến việc bỏ qua thông tin từ các tập
trước đó, có thể làm giảm độ chính xác của quyết định. Vì vậy, giải pháp đề xuất trong
bài báo là sử dụng một số lượng hữu hạn các tập cuối cùng để cập nhật các giá trị Q.
Bằng cách này, thông tin từ nhiều tập hơn được tính toán và sử dụng, tạo điều kiện cho
quyết định định tuyến chính xác hơn và hiệu suất tăng lên
- Tinh chỉnh tham số giao thức được cải tiến dựa trên điều kiện kênh: Chất lượng
truyền tải có thể biến động do nhiều yếu tố như nhiễu, suy hao tín hiệu, và sự cạnh tranh
từ các thiết bị khác trong mạng. Điều này có thể ảnh hưởng đến độ trễ của việc truyền dữ
liệu, ngay cả khi lộ trình tối ưu đã được chọn. Do đó, giải pháp trong bài báo xem xét các
điều kiện kênh này và sử dụng chúng như một yếu tố để điều chỉnh các tham số trong
giao thức định tuyến dựa trên Q-learning. Bằng cách này, giao thức có thể tự động thích
ứng với biến động trong chất lượng truyền tải và tối ưu hóa hiệu suất truyền dữ liệu trong
mạng.
Ưu điểm:
o Nhẹ và được thiết kế cho các mạng có cấu trúc cố định.
o Ít tốn tài nguyên.
Nhược điểm:
o Không chịu lỗi (fault-tolerant): Khi mạng gặp sự cố, phải đợi đến cuối hoạt
động để cập nhật bảng định tuyến, làm cho chúng không phù hợp với môi
trường động.
Ví dụ: Load-carry-and-deliver (LCAD) [16] và Data Centric Routing (DCR) [17].
Đặc điểm:
o Các giao thức này lưu trữ thông tin định tuyến trong mỗi UAV thuộc mạng.
o Mỗi nút tự cập nhật bảng định tuyến của mình để phù hợp với những thay
đổi trong cấu trúc mạng.
o Do đó, có thể chọn các đường dẫn định tuyến để gửi gói tin với thời gian
chờ tối thiểu.
o Được sử dụng phổ biến do phù hợp với các tình huống mạng có tính di
động cao.
Nhược điểm:
o Yêu cầu nhiều gói tin điều khiển để thiết lập đường dẫn, làm tăng chi phí
truyền thông.
Ví dụ: Destination Sequenced Distance Vector (DSDV) [19] và Optimized Link
State Routing Protocol (OLSR) [20].
1.3.Giao thức Reactive (Giao thức định tuyến phản ứng theo yêucầu)
Ưu điểm:
o Ít chi phí truyền thông do chỉ tạo thông tin định tuyến khi có liên lạc giữa
hai nút.
Nhược điểm:
o Thời gian trễ cuối-cuối (end-to-end delay) tăng do cần thời gian xử lý để
thiết lập đường dẫn.
Ví dụ: Dynamic Source Routing (DSR) [22] và Ad-hoc On-demand Distance
Vector (AODV) [23].
1.4.Giao thức Hybrid (Giao thức kết hợp giữa Proactive và Reactive)
Đặc điểm:
o Kết hợp các ưu điểm của giao thức chủ động và phản ứng.
o Giúp khắc phục hạn chế về thời gian tìm đường và chi phí tin nhắn điều
khiển của từng loại riêng biệt.
Ví dụ: Zone Routing Protocol (ZRP) và Temporarily Ordered Routing Algorithm
(TORA) [25].
1.5.Giao thức Position-based (Giao thức định tuyến dựa trên vị trí)
Ưu điểm:
o Khắc phục hạn chế của các giao thức chủ động và phản ứng, đặc biệt là
việc sử dụng bảng định tuyến tĩnh và thiết lập đường dẫn trước mỗi lần
truyền gói tin.
Ví dụ: Greedy Perimeter Stateless Routing (GPSR) [27].
Đặc điểm:
o Sử dụng các cụm (cluster) để thực hiện khám phá đường dẫn.
Ví dụ: Mobility prediction clustering (MPC) [28] và Clustering Algorithm of
UAV Networking (29).
Thuật toán Q-learning tập trung vào việc học một hàm giá trị hành động (Q-value) cho
mỗi cặp trạng thái-hành động của một hệ thống. Q-value đo lường giá trị dự đoán của
một hành động trong một trạng thái cụ thể. Thuật toán này cập nhật Q-value dựa trên
phần thưởng nhận được và ước tính giá trị tương lai của các trạng thái kế tiếp.
Environment (Môi trường): là không gian mà máy tương tác
Agent (Máy): là chủ thể tương tác với môi trường qua hành động
Policy (Chiến thuật): là chiến thuật mà máy sử dụng để đưa ra hành động
State (Trạng thái): mô tả trạng thái hiện tại của máy
Reward (Phần thưởng): phần thưởng từ môi trường tương ứng với hành động
được thực hiện
Action (Hành động): là những gì máy có thể thực hiện
Chúng ta sẽ bắt đầu từ state S(t), tại trạng thái này, agent sẽ dựa trên policy đã
được thiết kế sẵn để đưa ra một action A(t) trong environment. Environment sau
khi quan sát hành động sẽ chuyển đổi sang trạng thái tiếp theo S(t+1) đối
với agent và đồng thời dựa theo hành động mà agent đã thực hiện, environment sẽ
đưa ra phần thưởng R(t) tương ứng. Agent sẽ lặp đi lặp lại qui trình này cho đến
khi tìm được chuỗi những hành động tối đa hóa phần thưởng được nhận.
3. Giao thức Q-Fanet
3.1. Tổng quan về Q-FANET
Q-FANET là một giao thức định tuyến dựa trên Qlearning được cải tiến cho FANET
𝑄(𝑆, 𝐴) là hàm giá trị hành động (action-value function) trong thuật toán Q-Learning
được sử dụng để huấn luyện các tác nhân (agent) học cách thực hiện các hành động tối ưu
trong môi trường của chúng.
Hệ số giảm dần cho các phần thưởng tương lai (𝛾): giá trị được đặt giữa 0 và 1.
Các cách tiếp cận Q-learning thông thường coi các phần thưởng trong tương lai ít
giá trị hơn các phần thưởng hiện tại, do đó chúng cần được giảm dần.
Tốc độ học (𝛼): bước thực hiện để cập nhật ước tính 𝑄(𝑆, 𝐴).
Giá trị 𝑄(𝑆, 𝐴) cao cho thấy việc thực hiện hành động 𝐴 trong trạng thái 𝑆 có khả
năng dẫn đến phần thưởng cao hơn trong tương lai. Ngược lại, giá trị 𝑄(𝑆, 𝐴) thấp cho
thấy việc thực hiện hành động 𝐴 trong trạng thái 𝑆 có khả năng dẫn đến phần thưởng
thấp hơn trong tương lai.
Chức năng:
Hoạt động:
Mục đích:
Giữ cho mạng luôn sẵn sàng truyền dữ liệu bất cứ lúc nào.
o Mô-đun Khám phá Hàng xóm hoạt động liên tục, ngay cả khi đang diễn ra
phiên truyền dữ liệu.
Cung cấp thông tin về các tuyến tốt nhất cho mô-đun Quyết định Định tuyến để
đưa ra lựa chọn đường truyền phù hợp.
Tổng quan:
Mô-đun Quyết định Định tuyến (Routing Decision Model) nhận thông tin về các
tuyến có sẵn và chọn tuyến phù hợp để một nút nhất định truyền dữ liệu.
Mô-đun này bao gồm hai thành phần phụ:
o QMR: Cải thiện khả năng phản hồi định tuyến bằng cách điều chỉnh thích
ứng các tham số Q-Learning.
o Q-Learning: Chọn tuyến dựa trên phần thưởng (reward).
Hoạt động:
Mô-đun chỉ hoạt động khi danh sách các nút lân cận khả dụng không rỗng (tức là
không có vấn đề về lỗ định tuyến).
Sử dụng kết hợp hai thuật toán con: Q-Learning+ và Q-Noise+.
(một thước đo cho chất lượng tín hiệu. Nó đo lường sự kháng nhiễu và sự giao
thoa giữa tín hiệu mong muốn, tín hiệu nhiễu và tín hiệu gây nhiễu từ các
nguồn khác trong môi trường)
Kết hợp các ưu điểm của QMR và Q-Noise+ để đưa ra lựa chọn tuyến tốt hơn.
Cân bằng giữa khám phá và khai thác bằng chính sách 𝜖-greedy.
Điều chỉnh hàm thưởng để đưa chất lượng kênh truyền vào quá trình ra quyết định
định tuyến.
Trong Q-FANET, bảng thưởng (R-Table) được đề xuất để lưu trữ các ô thưởng. Giá trị
khởi tạo của các ô thưởng là 0. Sau mỗi lần dữ liệu được chuyển tiếp từ nút 𝑖 đến nút 𝑗,
giá trị của bảng R được cập nhật theo công thức (4):
𝑅(𝑠, 𝑎) = {
𝑟_min = -100, nếu liên kết (𝑖, 𝑗) là cực tiểu cục bộ
𝑟_max = 100, nếu liên kết (𝑖, 𝑗) dẫn đến đích
50, trong các trường hợp khác}
𝑅(𝑠, 𝑎): Hàm thưởng phụ thuộc vào trạng thái (𝑠) và hành động (𝑎) được thực hiện
bởi tác nhân (agent), tương ứng với một nút trong mạng.
𝑠_i: Trạng thái hiện tại được liên kết với gói tin tại nút 𝑖.
𝑎_i,𝑗: Hành động chuyển tiếp gói tin từ nút 𝑖 sang nút lân cận 𝑗, sử dụng liên kết (𝑖,
𝑗), làm thay đổi trạng thái từ 𝑠_i sang 𝑠_𝑗.
𝑟_max = 100: Giá trị thưởng tối đa được áp dụng cho liên kết (𝑖, 𝑗) khi nút tiếp
theo 𝑗 là nút đích.
𝑟_min = -100: Giá trị thưởng tối thiểu được sử dụng khi nút 𝑖 được xác định là cực
tiểu cục bộ, nghĩa là tất cả các nút lân cận của nó đều cách xa đích hơn chính nó.
50: Giá trị thưởng mặc định được sử dụng trong mọi trường hợp khác. Ví dụ,
trường hợp này xảy ra khi nút 𝑗 là một nút trung gian trên đường đến đích.
3.3.3. Mô-đun con QMR
1. Cơ chế Trừng phạt:
Khi nút j phát hiện tất cả các nút lân cận đều xa đích hơn chính nó, nó báo cáo "lỗ hổng
định tuyến" cho nút trước đó i.
Nút i gán giá trị phần thưởng tối thiểu (r_min) cho liên kết i,j và cập nhật giá trị Q
tương ứng để ngăn chặn việc sử dụng liên kết này trong tương lai.
b) Xử lý Nút Lân cận Bị lỗi:
Nếu nút i không nhận được gói ACK từ nút j, nó nghi ngờ j bị lỗi và áp dụng hình phạt
tương tự như trường hợp "lỗ hổng định tuyến".
2. Giới hạn Tốc độ:
Giới hạn tốc độ cho liên kết i,j được xác định bởi công thức (5) dựa trên độ trễ và
khoảng cách giữa các nút và đích (D).
Công thức (6) đảm bảo giới hạn tốc độ luôn dương và hợp lý.
b) Ưu tiên Tốc độ:
Q-FANET ưu tiên các liên kết có độ trễ thấp để đảm bảo truyền dữ liệu nhanh chóng.
Giới hạn tốc độ giúp UAV di chuyển chậm hơn trên các liên kết có độ trễ cao, cải thiện
độ tin cậy truyền tải.