Download as pptx, pdf, or txt
Download as pptx, pdf, or txt
You are on page 1of 83

ĐỀ TÀI : PHƯƠNG PHÁP GIẢM

KHÔNG GIAN CHIỀU/KÍCH


THƯỚC
1
NHÓM 5
1. Giới thiệu

Phương pháp giảm không gian chiều (Dimensionality reduction) như một
bước tiền xử lý riêng biệt trong các ứng dụng phân loại hoặc hồi quy. Các lý do
chính để thực hiện việc này bao gồm:
 Giảm độ phức tạp của thuật toán

 Tiết kiệm chi phí

 Mô hình đơn giản hơn

 Trích xuất kiến thức Phân tích trực quan

2
1.Giới thiệu

Hai phương pháp chính để giảm không gian chiều:

 Lựa chọn đặc trưng (feature selection): Trong lựa chọn này, chúng ta quan tâm

đến việc tìm K chiều trong số D chiều mà chúng ta có nhiều thông tin nhất và loại
bỏ các chiều khác.

 Trích xuất đặc trưng: Trong lựa chọn này, chúng ta quan tâm đến việc tìm một

tập mới của K chiều là sự kết hợp của các chiều gốc D.

Các phương pháp này có thể được giám sát hoặc không giám sát tùy thuộc vào
việc chúng có sử dụng thông tin đầu ra hay không
3
2. Lựa chọn tập hợp con
Phần này mô tả về hai phương pháp lựa chọn tập hợp con của các biến đầu
vào trong một mô hình học máy.
 Lựa chọn chuyển tiếp tuần tự: Bắt đầu với không có tính năng nào và thêm
từng tính năng một vào tập hợp, ở mỗi bước thêm tính năng làm giảm lỗi nhiều
nhất. Quá trình này dừng lại khi việc thêm bất kỳ tính năng nào khác không làm
giảm lỗi. Công thức liên quan đến phương pháp này là:
Chọn đầu vào x gây ra ít lỗi nhất:

Thêm x vào F nếu:

4
2. Lựa chọn tập hợp con

 Lựa chọn ngược tuần tự: Bắt đầu với tất cả các tính năng và loại bỏ từng tính

năng một khỏi tập hợp, ở mỗi bước loại bỏ tính năng làm giảm lỗi nhiều nhất.
Quá trình này dừng lại khi việc loại bỏ bất kỳ tính năng nào làm tăng lỗi. Công
thức liên quan đến phương pháp này là:
Chọn đầu vào x gây ra ít lỗi nhất:

Loại bỏ x khỏi F nếu:

5
3. Phân tích thành phần chính
 Hình chiếu của x lên hướng của w là:
 Phân tích thành phần chính (PCA) là một phương pháp không giám giát, không
sử dụng thông tin đầu ra
 Mục tiêu chính là tối đa hóa phương sai
 Thành phần chính: Được chọn sao cho mỗi đặc trưng mới, bắt đầu từ đặc trưng
đầu tiên, được trải rộng nhất có thể được phân biệt giữa các điểm dữ liệu.
 Để có giải pháp độc đáo và là coi hướng là yếu tố quan trọng, yêu cầu
 Tìm kiếm vecto trọng số w1: Chúng ta tìm kiếm w1 sao cho Var(z1) đạt cực
đại theo ràng buộc Viết bài toán này dưới dạng bài toán
Lagrange, ta có:

6
3. Phân tích thành phần chính
 Thành phần chính thứ hai, w2, cũng sẽ tối đa hóa phương sai, có độ dài đơn
vị và trực giao với w1. Yêu cầu sau này là sao cho sau khi chiếu
không tương quan với z1. Đối với thành phần chính thứ hai, ta có:

Lấy đạo hàm theo w2 và đặt nó bằng 0, chúng ta có​:

Nhân với ta có được:

7
3. Phân tích thành phần chính
Lưu ý rằng . là một đại lượng vô hướng bằng với chuyển vi của
nó. Bởi vì w1 là vectơ riêng hàng đầu của Σ, nên Σw1 = λ1w1.
Vì thế

Và khi đó β = 0 và phương trình 6.8 rút gọn thành:

8
3. Phân tích thành phần chính
Công thức trên có ngụ ý rằng:
- w2 phải là vectơ riêng của Σ với giá trị riêng lớn thứ hai, λ 2 = α.
- Nếu hai giá trị riêng khác nhau, thì các vectơ riêng tương ứng sẽ trực giao với
nhau. Điều này là do ma trận Σ là ma trận đối xứng
- Nếu Σ là xác định dương (xT Σx > 0, với mọi x không rỗng), thì tất cả các giá
trị riêng của nó đều dương.
- Nếu Σ là số ít thì hạng của nó, chiều hiệu dụng, là k với k<d và λi, i = k +
1,...,d là 0 (λi được sắp xếp theo thứ tự giảm dần).
Từ đó ta xác định được:

9
Phân tích thành phần chính tập trung vào mẫu và sau đó xoay các trục để
thẳng hàng với các hướng có phương sai cao nhất. Nếu phương sai trên z2 quá nhỏ
thì có thể bỏ qua và chúng ta giảm số chiều từ hai xuống một.

10
3. Phân tích thành phần chính
Đây là một dẫn xuất khác:

trong đó D là ma trận đường chéo có các phần tử đường chéo là các phổ
riêng, λ1,...,λd. Đây được gọi là phân rã phổ của S. Vì C là phân rã trực giao và ,
nên chúng ta có thể nhân bên trái với CT và bên phải với C để thu được:

11
3. Phân tích thành phần chính

 Biểu đồ Scree là biểu đồ phương sai được giải thích dưới dạng hàm của số lượng
vectơ riêng được giữ lại. Bằng cách phân tích trực quan, người ta cũng có thể quyết
định k. Tại “elbow”, việc thêm một vectơ riêng khác không làm tăng đáng kể
phương sai được giải thích.
12
3. Phân tích thành phần chính

Tỷ lệ phương sai được giải thích được đưa ra cho tập dữ liệu Optdigits từ Kho
lưu trữ UCI. Đây là tập dữ liệu chữ số viết tay với 10 lớp và 64 chiều đầu vào.
20 vectơ riêng đầu tiên giải thích được 90% phương sai.

13
3. Phân tích thành phần chính

Dữ liệu optdigits được vẽ trong không gian của hai thành phần chính. Chỉ có nhãn của một trăm
điểm dữ liệu được hiển thị để giảm thiểu tỷ lệ mực trên nhiễu.
Biểu đồ này đưa ra mô tả bằng hình ảnh tốt hơn về mẫu so với biểu đồ của bất kỳ hai biến ban đầu
nào. Bằng cách xem xét kích thước của các thành phần chính, chúng ta cũng có thể cố gắng khôi
phục các biến cơ bản có ý nghĩa mô tả dữ liệu. Ví dụ, trong các ứng dụng hình ảnh mà đầu vào là
hình ảnh, các vectơ riêng cũng có thể được hiển thị dưới dạng hình ảnh và có thể được xem dưới
dạng mẫu cho các tính năng quan trọng của mặt riêng; chúng thường được đặt tên là “mặt riêng”,
14
“chữ số riêng”, v.v.
4. Phân tích nhân tố
 Phân tích nhân tố (FA) là một phương pháp thống kê giúp chúng ta tìm hiểu về các
yếu tố tiềm ẩn không thể quan sát được, mà chúng tác động lên các biến mà chúng ta
có thể quan sát. Điều này ngược lại với phân tích thành phần chính (PCA). Mục
đích là mô tả sự phụ thuộc giữa các biến quan sát bằng số lượng yếu tố nhỏ
hơn.
 FA, giống như PCA, là phương pháp nhóm và không được giám sát. Mục
đích là mô hình hóa dữ liệu trong một không gian chiều nhỏ hơn mà không
làm mất thông tin. Trong FA, điều này được đo bằng mối tương quan giữa các
biến.

15
4. Phân tích nhân tố
Trong phân tích nhân tố (FA), chúng ta giả định rằng có một tập hợp các yếu tố
không thể quan sát được, các yếu tố tiềm ẩn zj , j = 1,...,k mà khi tác động kết hợp sẽ tạo ra
x. Do đó trái ngược với hướng của PCA.Mục đích là mô tả sự phụ thuộc giữa các biến
quan sát bằng số lượng yếu tố nhỏ hơn.
 Ta có:

Có thể viết dưới dạng ma trận vecto như:

trong đó V là ma trận trọng số d × k , được gọi là hệ số tải.

16
4. Phân tích nhân tố
Tìm hệ số tải nhân số và các phương sai cụ thể
Ta có:
trong đó chúng ta chỉ lấy k vectơ riêng bằng cách xem xét tỷ lệ phương sai
được giải thích sao cho C là ma trận d × k của vectơ riêng và D1/2 là ma trận đường
chéo k × k với căn bậc hai của các giá trị riêng trên đường chéo của nó. Như vậy
chúng ta có:
Lưu ý rằng khi nhân V với bất kì ma trận trưc giao nào cụ thể là có tính chất
là một nghiệm hợp lệ khác và do đó nghiệm này không duy nhất

Nếu T là ma trận trực giao thì khoảng cách tới gốc không thay đổi
Nết z=Tx thì
17
4. Phân tích nhân tố
 Đối với việc sử dụng ma trận trực giao, nhân ma trận trực giao có tác dụng làm
quay các trục và cho phép chúng ta chọn tập trục dễ hiểu nhất. Trong hai chiều,

Có hai loại xoay: Xoay trực giao (các yếu tố vẫn trực giao sau khi xoay) và
xoay xiên (các yếu tố được phép trở nên tương quan).
Các yếu tố được luân chuyển để mang lại mức tải tối đa cho càng ít yếu tố
càng tốt cho mỗi biến, giúp các yếu tố có thể hiểu được. Tuy nhiên, khả năng diễn
giải mang tính chủ quan và không nên được sử dụng để áp đặt thành kiến của một
người lên dữ liệu.

18
4. Phân tích nhân tố
 Có hai cách sử dụng phân tích nhân tố: Nó có thể được sử dụng để thu thập
kiến thức, là N × k của nhiễu trung bình bằng 0. Đây là hồi quy tuyến tính đa
biến với trích xuất khi ta tìm thấy tải và cố gắng biểu thị các biến.
 Khi ta quan tâm đến việc giảm kích thước, chúng ta cần có khả năng để tìm
điểm nhân tố, zj , từ xi. Chúng ta muốn tìm tải wji, như:

trong đó xi được chuẩn hóa có giá trị trung bình bằng 0. Dưới dạng vecto có
thể viết như sau:
Đây là mô hình tuyến tính với d đầu vào và k đầu ra. Chuyển vị của nó có thể
được viết là:
19
4. Phân tích nhân tố
Khi chúng ta có một mẫu gồm N quan sát, chúng ta có:

trong đó Z là N × k các yếu tố, X là N × d của các quan sát (tập trung) và Ξ là N × k
của nhiễu trung bình bằng 0.
Đây là hồi quy tuyến tính đa biến với nhiều đầu ra và W có thể được tìm thấy dưới
dạng:
Để tìm Z, ta nhân lên và chia cả hai vế cho N-1

20
4. Phân tích nhân tố
thay phương trình 6.22 vào phương trình 6.21, ta có:

 giả sử S là không suy biến. Người ta có thể sử dụng R thay vì S khi xi được
chuẩn hóa để có phương sai đơn vị. Đối với giảm kích thước FA không có lợi thế so
với PCA ngoại trừ khả năng giải thích các yếu tố cho phép xác định các nguyên
nhân chung.

21
5. Phân tích tỉ lệ đa chiều

 MDS được sử dụng để xác định vị trí của các điểm trong không gian dựa trên
khoảng cách đã cho giữa chúng, mà không cần biết tọa độ chính xác của chúng.
 MDS có thể được sử dụng để giảm kích thước bằng cách tính toán khoảng cách
Euclid giữa các cặp trong khong gian d chiều và đưa giá trị này làm đầu vào cho
MDS sau đó chiếu nó vào không gian ít chiều hơn để bảo toàn khoảng cách.

22
5. Phân tích tỉ lệ đa chiều

 Giả sử ta có

đối với r và s, bình phương khoảng cách giữa chúng là:

trong đó brs được định nghĩa là:

Để hạn chế giải pháp ta có:

23
6. PHÂN TÍCH PHÂN BIỆT TUYẾN TÍNH

 Phân tích phân biệt tuyến tính


(LDA) là một phương pháp được
giám sát để giảm kích thước cho các
vấn đề phân loại. Chúng ta bắt đầu
với trường hợp có hai lớp, sau đó
khái quát hóa thành K>2 lớp.
 Cho các mẫu từ hai lớp C1 và C2,
chúng ta muốn tìm hướng, như được
xác định bởi vectơ w, sao cho khi dữ
liệu được chiếu lên w, các ví dụ từ
hai lớp được phân tách rõ ràng nhất
có thể.
Hình 6.7 Dữ liệu hai chiều, hai lớp được chiếu trên w.
24
6. PHÂN TÍCH PHÂN BIỆT TUYẾN TÍNH
• m1 và m2 lần lượt là giá trị trung bình của các mẫu từ C1 trước và sau khi chiếu.

• Sự phân tán của các mẫu từ C1 và C2 sau khi chiếu là

25
6. Phân tích phân biệt tuyến tính
Ma trận phân tán giữa các lớp sau
khi chiếu là WTSBW và ma trận
phân tán trong lớp sau khi chiếu là
WTSWW.
Đây đều là ma trận k×k. Để phân
tán (hoặc ma trận hiệp phương sai),
thước đo mức độ lây lan là yếu tố
quyết định, hãy nhớ chứng tỏ rằng
định thức là tích của các giá trị
riêng và rằng giá trị riêng cho
phương sai dọc theo vectơ riêng của
nó (thành phần). Hình 6.8 Dữ liệu quang học được vẽ trong không gian của hai
chiều đầu tiên được tìm thấy bởi LDA.
26
7. BẢNG ĐỒ ĐỒNG PHÂN

 Isomap sử dụng khoảng cách trắc địa giữa tất cả các cặp điểm dữ liệu.Đối với các
điểm lân cận gần trong không gian đầu vào; đối với những thay đổi nhỏ về tư thế,
đa tạp là cục bộ tuyến tính. Đối với các điểm ở xa, khoảng cách trắc địa được tính
gần đúng bằng tổng khoảng cách giữa các điểm trên đường đi của đa tạp.

 Điều này được thực hiện bằng cách xác định một biểu đồ có các nút tương ứng
với N dữ liệu các điểm và các cạnh của chúng kết nối các điểm lân cận (những
điểm có khoảng cách nhỏ hơn một số hoặc một trong n gần nhất) với trọng số
tương ứng đến khoảng cách Euclide.

27
7. BẢNG ĐỒ ĐỒNG PHÂN

 Rõ ràng là khoảng cách đồ thị cung


cấp một xấp xỉ tốt hơn như số điểm
tăng lên, mặc dù có sự đánh đổi giữa
thời gian dài hơn thời gian thực
hiện; nếu thời gian là quan trọng,
người ta có thể lấy mẫu con và sử
dụng tập hợp con“điểm mốc” để
làm cho thuật toán nhanh hơn. Hình 6.9 Khoảng cách trắc địa được tính dọc theo đa tạp

 Một vấn đề với Isomap, cũng như với MDS, là nó đặt N điểm vào một không gian có
chiều thấp, nhưng nó không học được hàm ánh xạ tổng quát điều đó sẽ cho phép lập bản
đồ một điểm kiểm tra mới; điểm mới nên được thêm vào

28
8. NHÚNG TUYẾN TÍNH CỤC BỘ
 Nhúng tuyến tính cục bộ (LLE) phục hồi cấu trúc phi tuyến toàn cầu từ sự phù hợp
tuyến tính cục bộ . Ý tưởng là mỗi địa phương phần của đa tạp có thể xấp xỉ tuyến
tính và cho đủ dữ liệu, mỗi điểm có thể được viết dưới dạng tổng tuyến tính, có
trọng số của các điểm lân cận.

 Ý tưởng trong LLE là trọng số tái thiết Wrs phản ánh giá trị trong các thuộc tính
hình học ba chiều của dữ liệu mà chúng tôi mong đợi cũng có giá trị đối với các
mảng cục bộ của đa tạp, tức là không gian mới mà chúng ta đang ánh xạ các trường
hợp

29
8. NHÚNG TUYẾN TÍNH CỤC BỘ
 Bước thứ hai của LLE tính đến thời điểm hiện tại giữ cố định trọng số Wrs và để
tọa độ mới zr lấy giá trị bao giờ hết các giá trị họ cần tôn trọng các ràng buộc
giữa các điểm được đưa ra bởi trọng lượng:

 Các điểm lân cận trong không gian d chiều ban đầu sẽ vẫn ở gần và được đặt
cùng vị trí tương tự với nhau trong không gian k chiều mới không gian. Phương
trình có thể được viết lại thành

30
8. NHÚNG TUYẾN TÍNH CỤC BỘ

 Nhúng tuyến tính cục bộ trước tiên tìm hiểu các ràng buộc trong bản gốc space và
next đặt các điểm vào không gian mới tôn trọng những ràng buộc đó. Các ràng
buộc được học bằng cách sử dụng trực tiếp (được hiển thị bằng các đường cong)

31
8. NHÚNG TUYẾN TÍNH CỤC BỘ
 Giống như Isomap, giải pháp LLE là tập hợp tọa độ mới cho N điểm, nhưng
chúng ta không học cách ánh xạ và do đó không thể tìm được z cho một điểm
mới x. Có hai giải pháp cho việc này

 Sử dụng ý tưởng tương tự, người ta có thể tìm được n lân cận của x trong bản
gốc không gian d chiều và trước tiên hãy tìm hiểu các trọng số tái thiết wj giảm
thiểu và sau đó sử dụng chúng để tái tạo z trong không gian k chiều mới

32
8. NHÚNG TUYẾN TÍNH CỤC BỘ
 Sử dụng X={xt,zt}N t=1 dưới dạng tập huấn luyện, người ta có thể huấn luyện bất
kỳ biến giải thích nào, một gen eralizer để tính gần đúng zt từ xt, có tham số θ
được học để giảm thiểu lỗi hồi quy:

Trong Isomap, khoảng cách trắc địa là tổng khoảng cách địa phương; trong LLE,
sự tối ưu hóa cuối cùng trong việc đặt zt tính đến tất cả các giá trị Wrs cục bộ.

33
9. NOTE
 Một khảo sát về các thuật toán lựa chọn tính năng được đưa ra trong Devijer và Kittler 1982.
Thuật toán lựa chọn tập hợp đặc trưng còn được gọi là thuật toán bọc theo mỗi cách tiếp cận,
trong đó việc lựa chọn tính năng được cho là “bao bọc” xung quanh người học mà nó sử dụng
như một chương trình con.

 Ngoài ra còn có các thuật toán lọc để lựa chọn tính năng trong đó phương pháp heuristic các
biện pháp được sử dụng để tính toán “mức độ liên quan” của một tính năng trong giai đoạn
chuẩn bị giai đoạn kết thúc mà không thực sự sử dụng người học.

 Ví dụ, trong trường hợp phân loại, thay vì đào tạo bộ phân loại và kiểm tra nó ở mỗi bước,
người ta có thể sử dụng thước đo khả năng phân tách, giống như thước đo được sử dụng
trong phân tích tuyến tính phân tích nội tại, để đo lường chất lượng của không gian mới
trong ngăn cách các lớp với nhau.

34
BÀI TẬP
BÀI 1
 Thêm một biến mới: Khi một biến mới được thêm vào, ta có thể sử dụng công
thức Sherman-Morrison để cập nhật S−1:

Trong đó, v là vector cột biểu diễn cho biến mới được thêm vào.
 Loại bỏ một biến: Khi một biến được loại bỏ, ta cũng có thể sử dụng công thức
Sherman-Morrison để cập nhật S−1:

Trong đó, v là vector cột biểu diễn cho biến bị loại bỏ.
35
BÀI TẬP
BÀI 2
 Ưu điểm:
1.Tính toán linh hoạt: Khoảng cách Mahalanobis có thể điều chỉnh linh hoạt theo cấu trúc dữ
liệu cụ thể, giúp cho quá trình tính toán phù hợp với đặc tính của dữ liệu.
2.Loại bỏ ảnh hưởng của biến không cần thiết: Khi sử dụng khoảng cách Mahalanobis,
chúng ta có thể loại bỏ ảnh hưởng của các biến không cần thiết hoặc không quan trọng, giúp
tăng cường hiệu suất của phương pháp.
 Nhược điểm:
1.Độ phức tạp tính toán: Tính toán khoảng cách Mahalanobis đòi hỏi tính toán ma trận hiệp
phương sai và ma trận nghịch đảo của nó, điều này có thể tốn kém về mặt tính toán so với
khoảng cách Euclidean, đặc biệt là đối với các tập dữ liệu lớn.
2.Yêu cầu mẫu lớn hơn: Để ước lượng ma trận hiệp phương sai một cách chính xác, cần
một số lượng mẫu đủ lớn. Nếu số lượng mẫu ít, ước lượng của ma trận hiệp phương sai có
thể không chính xác, dẫn đến sự chệch lệch trong khoảng cách Mahalanobis.
3.Nhạy cảm với việc ước lượng tham số: Khoảng cách Mahalanobis yêu cầu ước
lượng các tham số như ma trận hiệp phương sai và ma trận nghịch đảo, và các ước
lượng không chính xác có thể dẫn đến kết quả không chính xác hoặc không ổn định. 36
BÀI TẬP
BÀI 3
 Isomap với thông tin lớp:
 Đầu tiên, chúng ta có thể tính toán ma trận khoảng cách giữa các điểm dữ liệu sử dụng khoảng cách
Mahalanobis hoặc Euclidean.
 Tiếp theo, chúng ta có thể tính toán ma trận biểu diễn đồ thị k-neighborhood (kNN) từ ma trận
khoảng cách.
 Sau đó, chúng ta có thể tính toán ma trận biểu diễn đồ thị geodesic bằng cách sử dụng thuật toán
Dijkstra hoặc Floyd-Warshall.
 Cuối cùng, chúng ta sử dụng thuật toán tính toán phân tích thành phần chính (PCA) hoặc
multidimensional scaling (MDS) để ánh xạ các điểm vào không gian mới.
 LLE với thông tin lớp:
 Đầu tiên, chúng ta xây dựng ma trận k-nearest neighbors (kNN) cho dữ liệu.
 Tiếp theo, chúng ta tính toán các trọng số để mô tả mỗi điểm dữ liệu như là một tuyến tính của các điểm
láng giềng của nó.
 Trong quá trình này, chúng ta có thể thêm thông tin lớp bằng cách xem xét chỉ các điểm thuộc cùng
một lớp là láng giềng khi tính toán trọng số.
 Cuối cùng, chúng ta sử dụng các trọng số tính toán được để xây dựng ma trận sử dụng mô hình
37
không gian mới.
38
12.7 Learning Vector Quantization
Giả sử chúng ta có H đơn vị cho mỗi lớp, đã được gắn nhãn bởi các lớp đó. Các đơn vị này
được khởi tạo với các phiên bản ngẫu nhiên từ các lớp của chúng. Ở mỗi lần lặp, chúng ta tìm
đơn vị mi gần nhất với thể hiện đầu vào trong khoảng cách Euclide và sử dụng quy tắc cập
nhật sau:

Nếu xt và mi có cùng lớp nhãn


(12.44)
Nếu không

 Nếu tâm gần nhất có nhãn chính xác, nó sẽ được di chuyển về phía đầu vào để thể hiện nó
tốt hơn.
 Nếu nó thuộc sai lớp, nó sẽ bị chuyển đi từ đầu vào với kỳ vọng rằng nếu nó được di
chuyển đủ xa, tâm của lớp chính xác sẽ ở gần nhất trong lần lặp lại trong tương lai.

39
12.8. Mixture of Experts
 Trong RBF chúng tôi đưa ra mức độ phù hợp không đổi. Trong trường hợp đối với bất kỳ đầu
vào nào, chúng ta có một gh 1 và tất cả các đầu vào khác 0, chúng ta nhận được một xấp xỉ hằng
số từng phần trong đó đối với đầu ra i, độ khớp cục bộ của miếng vá h được cho bởi wih. Từ khai
triển Taylor, chúng ta biết rằng tại mỗi điểm, hàm có thể được viết dưới dạng

(12.45)

Do đó một xấp xỉ không đổi là tốt nếu x đủ gần a vàf (a) gần bằng 0.
Nếu không đúng như vậy, chúng ta cần chia không gian thành một số lượng lớn các bản
vá, điều này quan trọng khi chiều đầu vào cao, do quy luật của chiều

40
12.8. Mixture of Experts Một cách khác là có một phép tính gần đúng tuyến
tính từng phần là số hạng tuyến tính. Chúng được
viết:

(12.46)

Tương tự như phương trình 12.25 nhưng ở đây, wih,


sự đóng góp của h cho đầu ra i không phải là hằng
số mà là hàm tuyến tính của đầu vào:

(12.47)

vih là vectơ tham số xác định hàm tuyến tính và bao


gồm thuật ngữ sai lệch. Việc kích hoạt đơn vị có thể
được coi là RBF chuẩn hóa:
Hình 12.10 Các trọng số lớp thứ hai là đầu ra của các
mô hình tuyến tính. Chỉ có một mô hình tuyến tính
(12.48)
được hiển thị cho rõ ràng.
41
12.8. Mixture of Experts
Khi x có nhiều chiều, việc sử dụng các đơn vị
Gaussian cục bộ có thể cần một số lượng lớn các
chuyên gia và Jacobs et al. (1991) đề xuất thực
hiện:

(12.49)

Lưu ý rằng mh không còn là tâm mà là siêu phẳng


và do đó bao gồm các giá trị sai lệch.

Mạng cổng này đang thực hiện phân loại trong đó


Hình 12.11 WH là các mô hình và mạng cổng là một mô
hình khác xác định trọng số của từng mô hình, được đưa nó phân chia tuyến tính vùng đầu vào mà chuyên
ra bởi gh. Nhìn theo cách này, cả các chuyên gia lẫn cổng gia h chịu trách nhiệm với các vùng chuyên môn
đều không bị giới hạn ở tính tuyến tính. của các chuyên gia khác.
42
12.8.1 Cooperative Experts
Trong việc kết hợp, từ phương trình 12.46 ta có Dựa trên phương pháp trên, Nếu chúng ta sử dụng
được yit và làm cho nó càng gần với yêu cầu gating softmax (phương trình 12.49) thì sẽ có quy
đầu ra càng tốt, rit. Trong hồi quy, hàm lỗi là tắc cập nhật sau:

(12.52)
(12.50)

Sử dụng phương pháp giảm độ dốc (gradient Nếu chúng ta sử dụng (phương trình 12.48), chỉ có
descent), các tham số trọng số lớp thứ hai được số hạng cuối cùng, ∂ph/∂mhj, là khác.
cập nhật dưới dạng Trong phân loại, chúng ta có:

(12.51) (12.53)

So với phương trình 12.26, chúng ta thấy rằng với wih = vT ihx, và các quy tắc cập nhật được rút
điểm khác biệt duy nhất là bản cập nhật mới này ra để giảm thiểu entropy chéo.
là một hàm của đầu vào.
12.8.2 Competitive Experts
Giống như sự cạnh tranh của các RBF, chúng ta có

(12.54)

Ở đâu có yih t = wih t = vihxt. Sử dụng độ dốc tăng dần (gradient ascent).

Chúng ta nhận:

(12.55)

(12.56)
12.8.2 Competitive Experts
Trong phân loại, chúng ta có
(12.57)

(12.58)

Với:

(12.59)

Alpaydın và Jordan (1996) so sánh các mô hình hợp tác và cạnh tranh cho các nhiệm vụ phân loại và
thấy rằng mô hình hợp tác nhìn chung chính xác hơn nhưng phiên bản cạnh tranh học hỏi nhanh hơn.
Mô hình cạnh tranh khiến sự phân chia trở nên khó khăn hơn; nói chung chỉ có một chuyên gia hoạt
động cho đầu vào và do đó việc học sẽ nhanh hơn.
12.9 Hierarchical Mixture of Experts
Trong hình 12.11, chúng ta thấy một tập hợp các chuyên gia và mạng cổng chọn một trong
các chuyên gia làm hàm đầu vào.
Trong một hỗn hợp các chuyên gia có thứ bậc, chúng ta thay thế mỗi chuyên gia bằng một hệ
thống hoàn chỉnh gồm các chuyên gia theo cách đệ quy (Jordan và Jacobs 1994).
Kiến trúc này có thể được xem như một cây quyết định trong đó các mạng cổng có thể được
xem như các nút quyết định.
Các nút lá là mô hình tuyến tính và dự đoán của chúng được tính trung bình và được truyền
lên cây. Gốc cho kết quả cuối cùng, là giá trị trung bình có trọng số của tất cả các lá.
Đây là cây quyết định mềm, trái ngược với những cây quyết định mà chúng ta đã thấy trước
đây, trong đó chỉ có một đường đi từ gốc đến lá được chọn.

 Jordan và Jacobs (1994) rút ra được cả phương pháp học giảm độ dốc và học EM quy tắc
cho một kiến trúc như vậy
12.10 Notes
Mạng RBF có thể được coi là mạng thần kinh, được triển khai bởi một mạng gồm các đơn vị xử lý
đơn giản. Nó khác với perceptron nhiều lớp trong đó lớp thứ nhất và lớp thứ hai thực hiện các
chức năng khác nhau.

Mạng RBF học nhanh hơn lan truyền ngược trên perceptron nhiều lớp nhưng sử dụng nhiều tham
số hơn. Cả hai phương pháp này đều vượt trội so với k-NN về tốc độ phân loại và nhu cầu bộ nhớ.
Những hạn chế thực tế như thời gian, bộ nhớ và độ phức tạp tính toán có thể quan trọng hơn
những khác biệt nhỏ về tỷ lệ lỗi trong các ứng dụng trong thế giới thực.

Trong mạng RBF, khi các tâm và mức chênh lệch được cố định (ví dụ: bằng cách chọn một tập
hợp con ngẫu nhiên các trường hợp huấn luyện làm tâm, như trong phương pháp neo), việc huấn
luyện lớp thứ hai là một mô hình tuyến tính.
BÀI TẬP
Bài 1: Hiển thị mạng RBF triển khai XOR.

Một mạng RBF cho XOR có thể có ba neuron trong lớp ẩn, mỗi neuron đại diện
cho một cụm dữ liệu khác nhau. Neuron đầu ra kết hợp ba cụm này để phân loại
XOR. Cấu trúc mạng như sau:
Bài 2: Viết mạng RBF sử dụng đơn vị elip thay vì đơn vị xuyên tâm

Mạng lưới thần kinh hoạt động bằng cách mô phỏng


quá trình xử lý tín hiệu theo cách này:

• Trước khi vào đơn vị thần kinh, mỗi đại lượng


đầu vào được liên kết với một trọng số.
• Mỗi nút trong mạng được liên kết với một chức
năng đầu ra cụ thể, được gọi là chức năng kích
hoạt.

Đầu ra của mạng bị ảnh hưởng bởi một số yếu tố,


bao gồm cấu trúc, khả năng kết nối, trọng lượng và
chức năng kích hoạt của mạng.

Các kết nối giữa mỗi cặp nút trong mạng tương ứng với các giá
trị có trọng số, xác định việc truyền tín hiệu qua các kết nối.
Bài 3. So sánh số lượng tham số giữa kiến trúc hỗn
hợp của chuyên gia và mạng RBF:

Số lượng tham số trong một kiến trúc hỗn hợp của chuyên gia thường phụ
thuộc vào số lượng chuyên gia và độ phức tạp của mỗi mạng chuyên gia.

So với đó, số lượng tham số trong một mạng RBF phụ thuộc vào số lượng
hàm cơ sở hình cầu và số chiều của không gian đầu vào.
18. Học tăng cường (reinforcement learning-RL)
18.1. Giới thiệu
 Học tăng cường dựa trên một mô hình toán học về
việc ra quyết định gọi là quá trình quyết định Markov.
Mô hình này sử dụng các bước thời gian riêng rẽ. Ở
mỗi bước, tác nhân thực hiện một hành động mới dẫn
đến trạng thái môi trường mới. Tương tự, trạng thái
hiện tại được quy cho chuỗi các hành động trước đó.
 Thông qua thử và sai trong quá trình di chuyển qua
môi trường, tác nhân xây dựng một tập hợp các quy
tắc hoặc chính sách nếu-thì. Các chính sách này giúp
tác nhân quyết định thực hiện hành động nào tiếp
theo để có phần thưởng tích lũy tối ưu. Tác nhân cũng
phải lựa chọn giữa việc khám phá thêm môi trường
để tìm hiểu phần thưởng cho hành động ở trạng thái
mới hoặc chọn các hành động có phần thưởng cao đã
biết từ một trạng thái nhất định. Điều này được gọi là
đánh đổi giữa khám phá và khai thác. Ví dụ về một robot được đặt trong mê cung
51
18.2 Trường hợp một trạng thái: K-Armed Bandit
 Trong bài toán này, chúng ta cần quyết định chọn đòn bẩy nào để tối đa hóa phần thưởng từ
một máy đánh bạc giả định có K đòn bẩy. Trong học tăng cường, chúng ta thử các đòn bẩy
khác nhau và theo dõi đòn bẩy tốt nhất để đạt được phần thưởng tối đa. Điều này được đơn
giản hóa vì chỉ có một trạng thái hoặc một máy đánh bạc và chúng ta nhận được ngay phần
thưởng sau mỗi hành động mà không có sự trì hoãn.
 Khi phần thưởng có tính xác định, chúng ta chỉ cần đặt Q(a) bằng giá trị phần thưởng của hành
động a. Khi khai thác, chúng ta có thể tiếp tục chọn hành động có giá trị Q(a) cao nhất, nhưng
cũng cần khám phá để đảm bảo không bỏ qua hành động có phần thưởng cao hơn.
 Chúng ta có thể chọn các hành động khác nhau và lưu trữ Q(a) cho mọi a. Bất cứ khi nào muốn
khai thác, chúng ta có thể chọn hành động có giá trị lớn nhất, tức là chọn:
nếu Q() =
 Khi phần thưởng có tính ngẫu nhiên, chúng ta sẽ nhận được các phần thưởng khác nhau mỗi
khi chọn cùng một hành động, được xác định bởi phân phối xác suất p(r|a). Trong trường hợp
này, chúng ta xác định (a) là giá trị ước lượng của tác động tại thời điểm t, là giá trị trung bình
của tất cả phần thưởng nhận được khi hành động a được chọn trước thời điểm t. Cập nhật trực
tuyến có thể được định nghĩa là:
(a) (a) + (a) - (a)] 52
18.3 Các yếu tố của học tập tăng cường
 Tác nhân là người ra quyết định trong môi trường, tương tác với môi trường và nhận phần thưởng
khi thực hiện hành động. Thời gian được xem như rời rạc (t = 0,1,2,...), và biểu thị trạng thái của
tác nhân tại thời điểm t trong tập hợp S của tất cả các trạng thái có thể. Hành động được thực hiện
tại thời điểm t khi tác nhân ở trạng thái , được ký hiệu là ∈ A( ), và sau đó tác nhân chuyển sang
trạng thái tiếp theo +1 và nhận phần thưởng +1.
 Chính sách, π, xác định hành vi của tác nhân và là ánh xạ từ trạng thái của môi trường đến hành
động: π : S→A. Chính sách xác định hành động sẽ được thực hiện ở bất kỳ trạng thái nào : =
π(). Giá trị của chính sách π, (), là phần thưởng tích lũy dự kiến sẽ nhận được trong khi đại lý tuân
theo chính sách, bắt đầu từ trạng thái .
 Trong mô hình chân trời hữu hạn hoặc mô hình phân đoạn, tác nhân cố gắng tối đa hóa phần
thưởng mong đợi cho T bước tiếp theo:

() = E[ +1+ +2+…+ +T] = E[


 Một số nhiệm vụ nhất định đang tiếp tục và không có giới hạn cố định trước đó. Trong mô hình
chân trời vô hạn, không có giới hạn trình tự nhưng phần thưởng trong tương lai sẽ được giảm giá:

() = E[ +1+Ɣ +2+ +3+…] = E[ +i]


53
18.3 Các yếu tố của học tập tăng cường
 Chúng ta thích phần thưởng sớm hơn là muộn hơn vì chúng ta không chắc mình sẽ tồn tại được
bao lâu.Với mỗi chính sách π, có một chính sách π ∗ sao cho:
() = (),
 Ví dụ: Ví dụ, trong một số ứng dụng trong điều khiển, thay vì làm việc với các giá trị của trạng
thái V(), chúng ta thích làm việc với các giá trị của các cặp hành động trạng thái Q(,). V() biểu thị
mức độ tốt của tác nhân ở trạng thái , trong khi Q(,) biểu thị mức độ thực hiện hành động khi ở
trạng thái . Chúng tôi xác định (,) là giá trị, tức là phần thưởng tích lũy dự kiến của hành động
được thực hiện ở trạng thái thứ nhất và sau đó tuân theo chính sách tối ưu. Giá trị của trạng thái
bằng giá trị của hành động tốt nhất có thể:
() = (,)
= E [ +i]
= E [ +1+ +i+1]
= E [ +1 + ()]
() = ( E [ +1] + |,) () )

54
18.3 Các yếu tố của học tập tăng cường
Khi có các giá trị(,), chúng ta có thể xác định chính sách π của mình là thực hiện hành động , có
giá trị cao nhất trong số tất cả (,):
): Choose where (,) = (,)

Hình 18.2 Thuật toán lặp giá trị cho việc học dựa trên mô hình.
55
18.4 Học tập dựa trên mô hình
Chúng tôi bắt đầu với việc học dựa trên mô hình trong đó chúng tôi hoàn toàn biết các tham số
của mô hình môi trường, p(rt+1|st,at) và P(st+1|st,at). Trong trường hợp này, chúng ta không cần
bất kỳ sự khám phá nào và có thể trực tiếp giải quyết hàm và chính sách giá trị tối ưu bằng cách
sử dụng quy hoạch động. Hàm giá trị tối ưu là duy nhất và là nghiệm của các phương trình đồng
thời cho trong phương trình 18.6. Khi chúng ta có hàm giá trị tối ưu, chính sách tối ưu là chọn
hành động tối đa hóa giá trị ở trạng thái tiếp theo:

18.4.1 Lặp lại giá trị


Để tìm chính sách tối ưu, chúng ta có thể sử dụng hàm giá trị tối ưu và có một thuật toán lặp được
gọi là lặp giá trị đã được chứng minh là hội tụ về giá trị chính xác . Mã giả của nó được cho
trong hình 18.2.
Các giá trị hội tụ nếu chênh lệch giá trị tối đa giữa hai lần lặp nhỏ hơn một ngưỡng nhất định δ:
56
18.4.1 Lặp lại giá trị
Để tìm chính sách tối ưu, chúng ta có thể sử dụng hàm giá trị tối ưu và có một thuật toán lặp được
gọi là lặp giá trị đã được chứng minh là hội tụ về giá trị chính xác . Mã giả của nó được cho
trong hình 18.2.
Các giá trị hội tụ nếu chênh lệch giá trị tối đa giữa hai lần lặp nhỏ hơn một ngưỡng nhất định δ:

Hình 18.3 Thuật toán lặp chính sách cho học tập dựa trên mô hình. 57
18.4.2 Lặp lại chính sách
Trong quá trình lặp lại chính sách, lưu trữ và cập nhật chính sách thay vì thực hiện việc
này một cách gián tiếp qua các giá trị. Mã giả được cho trong hình 18.3. Ý tưởng là bắt
đầu với một chính sách và cải tiến nó nhiều lần cho đến khi không còn thay đổi nào nữa.
Hàm giá trị có thể được tính bằng cách giải các phương trình tuyến tính. Sau đó, sẽ kiểm
tra xem có thể cải thiện chính sách hay không bằng cách tính đến những điều này. Bước
này đảm bảo sẽ cải thiện được chính sách, và khi không thể cải tiến được thì chính sách
được đảm bảo là tối ưu. Mỗi lần lặp của thuật toán này mất thời gian O(|A||S|2 +|S|3),
nhiều hơn thời gian lặp lại giá trị, nhưng lần lặp chính sách cần ít lần lặp hơn so với lần
lặp giá trị.

58
18.5 Học về sự khác biệt theo thời gian
Mô hình được xác định bởi phần thưởng và phân bố xác suất trạng thái tiếp theo, và như đã thấy
trong phần 18.4, khi biết những điều này, có thể giải quyết chính sách tối ưu bằng cách sử dụng
quy hoạch động. Tuy nhiên, những phương pháp này rất tốn kém và hiếm khi có được kiến thức
hoàn hảo về môi trường.
Ứng dụng thú vị và thực tế hơn của học tăng cường là khi không có mô hình. Điều này đòi hỏi
phải thăm dò môi trường để truy vấn mô hình. Trước tiên, phải thảo luận về cách thực hiện việc
khám phá này và sau đó xem các thuật toán học tập không có mô hình cho các trường hợp xác
định và không xác định. Mặc dù sẽ không giả định có kiến thức đầy đủ về mô hình môi trường,
tuy nhiên sẽ yêu cầu nó phải đứng yên.
Khi khám phá và thấy giá trị của trạng thái tiếp theo và phần thưởng, ta sử dụng thông tin này để
cập nhật giá trị của trạng thái hiện tại. Các thuật toán này được gọi là thuật toán sai phân tạm
thời vì chúng tôi xem xét sự khác biệt giữa ước tính hiện tại của chúng tôi về giá trị của một
trạng thái (hoặc một cặp trạng thái-hành động) với giá trị chiết khấu của trạng thái tiếp theo và
phần thưởng nhận được.
59
18.5.1 Chiến lược thăm dò
Để khám phá, một khả năng là tìm kiếm tham lam sử dụng trong đó với khả năng xác suất, chúng
tôi chọn một hành động thống nhất ngẫu nhiên trong số tất cả các hành động có thể
hành động, cụ thể là khám phá và với xác suất 1 − , chúng tôi chọn hành động tốt nhất
hành động, cụ thể là khai thác. Chúng tôi không muốn tiếp tục khám phá vô thời hạn mà bắt đầu
khai thác khi chúng tôi khám phá đủ; để làm điều này, chúng tôi bắt đầu với giá trị cao và giảm
dần nó. Chúng ta cần đảm bảo rằng chính sách của chúng ta mềm mại, nghĩa là xác suất chọn bất
kỳ hành động a ∈ A nào ở trạng thái s ∈ S đều lớn hơn 0.
Chúng ta có thể chọn theo xác suất, sử dụng hàm softmax để chuyển đổi giá trị thành xác suất:

Và sau đó lấy mẫu theo các xác suất này. Để chuyển dần từ thăm dò sang khai thác, chúng ta có thể
sử dụng biến “nhiệt độ” T và xác định xác suất chọn hành động a là:

60
18.5.2 Phần thưởng và hành động mang tính quyết định
Trong học tập không có mô hình, trước tiên chúng ta thảo luận về trường hợp xác định đơn giản
hơn, trong đó tại bất kỳ cặp trạng thái-hành động nào, đều có một phần thưởng duy nhất và trạng
thái tiếp theo có thể xảy ra. Trong trường hợp này, phương trình 18.7 rút gọn thành:

Và chúng tôi chỉ đơn giản sử dụng điều này như một bài tập để cập nhật Q(st,at). Khi nêu st,
chúng ta chọn hành động theo một trong các chiến lược ngẫu nhiên mà chúng ta đã thấy trước
đó, chiến lược này trả về phần thưởng rt+1 và đưa chúng ta đến trạng thái st+1. Sau đó chúng tôi
cập nhật giá trị của hành động trước đó dưới dạng

61
18.5.2 Phần thưởng và hành động mang tính quyết định

Hình 18.4 Ví dụ cho thấy giá trị Q tăng nhưng không bao giờ giảm.
62
18.5.3 Phần thưởng và hành động không xác thực

Nếu phần thưởng và kết quả của các hành động không phải là xác định, thì chúng ta có phân phối xác
xuất cho phần thưởng p(r++1/st,at) từ đó phần thưởng được lấy mẫu và có phân phối xác xuất cho trạng
thái tiếp theo P(s+1/s,at)
Chúng ta không thể thực hiện phép gán trực tiếp trong trường hợp này vì với cùng một trạng thái và hành
động, chúng ta có thể nhận được những phần thưởng khác nhau hoặc chuyển sang các trạng thái tiếp theo
khác nhau. Những gì chúng tôi làm là duy trì mức trung bình. Đây được gọi là thuật toán học Q:

Chúng ta cũng có thể coi phương trình 18.15 là việc giảm sự khác biệt giữa giá trị Q hiện tại và ước tính
dự phòng, từ một bước thời gian sau đó. Các thuật toán như vậy được gọi là thuật toán sai phân thời gian
(TD) (Sutton 1988).

63
18.5.3 Phần thưởng và hành động không xác thực

Đây lại là quy tắc delta trong đó rt+1 +


γV (st+1) là dự đoán muộn hơn, tốt hơn
và V (st ) là ước tính hiện tại. Sự khác
biệt của chúng là sự khác biệt về thời
gian và việc cập nhật được thực hiện để
giảm sự khác biệt này. Hệ số cập nhật η
giảm dần và TD đảm bảo hội tụ về hàm
giá trị tối ưu V ∗(s). Dưới đây là
Hình 18.6 Thuật toán Sarsa, là phiên
bản chính sách của Q learning.

64
18.5.4 Dấu vết đủ điều kiện
Dấu vết đủ điều kiện là một bản ghi về sự xuất hiện của
các chuyến thăm trong quá khứ. Cho phép chúng tôi thực
hiện phân công tín dụng tạm thời, cho phép chúng tôi
cập nhật các giá trị của các lần truy cập đã xảy ra trước
đó.
Để lưu trữ dấu vết đủ điều kiện, chúng tôi yêu cầu một
biến bộ nhớ bổ sung được liên kết với mỗi cặp hành
động trạng thái, e(s, a), được khởi tạo thành 0. Khi cặp
hành động trạng thái (s, a) được truy cập, cụ thể là, khi
chúng ta thực hiện hành động a trong trạng thái s, tính đủ
điều kiện của nó được đặt thành 1; tính đủ điều kiện của
tất cả các cặp hành động trạng thái khác được nhân với
yA. 0 ≤ A ≤ 1 là tham số phân rã dấu vết.

65
18.5.4 Dấu vết đủ điều kiện
Nếu một cặp hành động trạng thái chưa bao giờ được truy cập thì tính đủ điều kiện của nó vẫn là
0; nếu nó đã như vậy, khi thời gian trôi qua và các hành động trạng thái khác được truy cập, tính
đủ điều kiện của nó sẽ giảm dần tùy thuộc vào giá trị của γ và λ (xem hình 18.7). Chúng ta nhớ
rằng ở Sarsa, sai số thời gian tại thời điểm t là

Trong Sarsa có dấu vết đủ điều kiện, được đặt tên là Sarsa(λ), tất cả các cặp hành động trạng
thái được cập nhật dưới dạng

66
18.5.4 Dấu vết đủ điều kiện
Việc này cập nhật tất cả các cặp hành động
trạng thái đủ điều kiện, trong đó việc cập
nhật phụ thuộc vào mức độ chúng đã xảy ra
trong quá khứ. Giá trị của λ xác định tín
dụng tạm thời: nếu λ = 0, chỉ cập nhật một
bước được thực hiện. Các thuật toán thuật
toán mà chúng ta đã thảo luận trong phần
18.5.3 là như vậy và vì lý do này mà chúng
được đặt tên là Q(0), Sarsa(0) hoặc TD(0).
Khi λ tiến gần đến 1 hơn, nhiều bước trước
đó sẽ được xem xét hơn. Khi λ = 1, tất cả
các bước trước đó sẽ được cập nhật và tín
dụng được cấp cho chúng chỉ giảm γ mỗi
bước.
67
18.6 Khái quát
- Chúng tôi đã xem xét trước đó được gọi là thuật toán dạng bảng. Có một số vấn đề với cách tiếp
cận này:
(1) khi số lượng trạng thái và số lượng hành động lớn, kích thước của bảng có thể trở nên khá
lớn
(2) trạng thái và hành động có thể liên tục, ví dụ, xoay vô lăng theo một góc nhất định và sử
dụng bảng, chúng phải được giải mã có thể gây ra lỗi
(3) khi không gian tìm kiếm lớn, có thể cần quá nhiều tập để điền vào tất cả các mục nhập của
bảng với độ chính xác chấp nhận được
-Thay vì lưu trữ các giá trị Q như hiện tại, chúng ta có thể coi đây là một vấn đề hồi quy.
-Đây là một vấn đề học tập có giám sát, nơi chúng tôi xác định một bộ hồi quy Q(s, a|θ), lấy s và
a làm đầu vào và được tham số hóa bởi một vectơ của các tham số, θ , để học các giá trị
-Ví dụ, đây có thể là một mạng nơ-ron nhân tạo với s và a làm đầu vào, một đầu ra và θ có trọng
số kết nối

68
 Để có thể đào tạo người thụt lùi, chúng ta cần một bộ đào tạo. Trong trường hợp của
Sarsa(0), chúng tôi đã thấy trước đó rằng chúng tôi muốn Q(st, at) đến gần rt+1 + YQ(St+1,
At+1). Vì vậy, chúng ta có thể tạo thành một tập hợp các mẫu đào tạo trong đó đầu vào là
cặp hành động trạng thái (st, at) và đầu ra yêu cầu là rt+1 + yQ(St+1, At+1). Chúng ta có thể
viết lỗi bình phương như

Các bộ đào tạo có thể được xác định tương tự cho Q(0) và TD(0), trong trường hợp sau,
chúng ta học V(s), và đầu ra yêu cầu là r++1 - V(St+1). Khi một bộ như vậy đã sẵn sàng,
chúng ta có thể sử dụng bất kỳ thuật toán học có giám sát nào để học tập bộ đào tạo. Nếu
chúng ta đang sử dụng phương pháp gradient-descent, như trong đào tạo mạng lưới thần
kinh, vectơ tham số được cập nhật là

69
18.7 Các trạng thái có thể quan sát được 1 phần

18.7.1 Cài đặt

Trong một số ứng dụng nhất định, tác nhân không biết chính xác trạng thái. Nó là được
trang bị các cảm biến trả về một quan sát, sau đó tác nhân sẽ sử dụng để ước lượng trạng thái
Việc cài đặt này giống như quá trình ra quyết định của Markov, ngoại trừ việc sau khi thực
hiện một hành động tại at, trạng thái mới st+1 chưa được biết, nhưng chúng ta có một quan
sát ot+1 đó là hàm ngẫu nhiên của st và at: p(ot+1|st, at). Đây được gọi là một MDP có thể
quan sát được một phần (POMDP). Nếu ot+1 = st+1 thì POMDP giảm xuống. MDP có thể
quan sát được MDP
Mô hình Markov và lời giải tương tự nhau; nghĩa là, từ quan sát, chúng ta cần suy ra trạng
thái (hay đúng hơn là phân bố xác suất cho trạng thái) và sau đó hành động dựa trên điều
này. Nếu đại lý tin rằng nó ở trạng thái s1 với xác suất 0,4 và ở trạng thái s2 với xác suất 0,6
thì giá trị của bất kỳ hành động nào bằng 0,4 lần giá trị của hành động trong s1 cộng 0,6 lần
giá trị giá trị của hành động trong s2.
70
18.7.2 Ví dụ: Vấn đề về
con hổ
 Giả sử chúng ta đứng trước hai cánh cửa, một bên trái và
một bên phải, dẫn tới hai căn phòng. Đằng sau một trong
hai cánh cửa, chúng ta không biết con nào có hổ đang
ngồi, đằng sau con kia có một kho báu. Nếu chúng ta mở
cửa căn phòng có con hổ, chúng ta sẽ nhận được một
phần thưởng tiêu cực lớn, và nếu chúng ta mở cánh cửa
phòng kho báu, chúng tôi nhận được một số phần
thưởng tích cực. Trạng thái ẩn, zL, là vị trí của con hổ.
Giả sử p biểu thị xác suất có con hổ ở trong phòng bên
trái và do đó, con hổ ở trong phòng bên phải với xác suất
1 - p: Hai hành động lần lượt là aL và aR tương ứng
với việc mở cửa bên trái hoặc cửa bên phải.
p ≡ P(zL = 1)
- Hai hành động lần lượt là aL và aR tương ứng với việc
mở cửa bên trái hoặc cửa bên phải. Phần thưởng là r(A, Z)

71
Với những phần thưởng này, nếu p gần bằng 1, nếu chúng ta tin rằng có khả năng cao là con hổ ở
bên trái, thì hành động đúng sẽ là chọn cửa bên phải, và tương tự, với p gần 0, nó sẽ tốt hơn nên
chọn cửa bên trái.
Hai đường này giao nhau với p khoảng 0,5 và ở đó phần thưởng mong đợi là khoảng −10. Thực tế
là phần thưởng kỳ vọng là âm khi p ở khoảng 0,5 (khi chúng ta không chắc chắn) cho thấy tầm
quan trọng của việc thu thập thông tin. Nếu chúng ta có thể thêm các cảm biến để giảm độ không
chắc chắn— tức là di chuyển p từ 0,5 đến gần 0 hoặc gần 1—chúng ta có thể thực hiện các hành
động mang lại phần thưởng tích cực cao.
\Giả sử với tư cách là đầu vào cảm giác, chúng tôi sử dụng micrô để kiểm tra xem con hổ ở sau
cửa bên trái hay bên phải. Nhưng chúng ta có những cảm biến không đáng tin cậy (nên chúng ta
vẫn ở trong phạm vi có thể quan sát được một phần). Giả sử chúng ta chỉ có thể phát hiện sự hiện
diện của hổ với xác suất 0,7:

72
Nếu chúng ta cảm nhận được oL, niềm tin của chúng ta vào vị trí của con hổ sẽ thay đổi:

Chúng ta càng có những cảm biến tốt hơn (nếu xác suất cảm nhận chính xác tăng từ 0,7 lên gần 1)
thì phạm vi này càng lớn (bài tập 9). Tương tự, như chúng ta thấy trong hình 18.10c, nếu chúng ta
cảm nhận được oR, điều này sẽ làm tăng cơ hội mở được cửa bên trái. Lưu ý rằng cảm biến cũng
làm giảm phạm vi cần cảm nhận (một lần nữa). Phần thưởng mong đợi cho các hành động trong
trường hợp này là

73
Hành động tốt nhất trong trường hợp này là tối đa trong ba hành động này. Tương tự, nếu chúng ta cảm nhận được
orR, phần thưởng mong đợi sẽ trở thành

Hình 18.10 Phần thưởng mong đợi và tác động của việc cảm
nhận trong vấn đề Tiger. 74
Để tính phần thưởng mong đợi, chúng ta cần lấy mức trung bình trên cả hai chỉ số cảm biến
được tính theo xác suất của chúng

75
Giả sử rằng có một cánh cửa giữa hai phòng và nếu chúng ta không nhìn thấy, con hổ
có thể di chuyển từ phòng này sang phòng khác. Giả sử đây là một con hổ bồn chồn và
nó ở trong cùng một phòng với xác suất 0,2 và chuyển sang phòng khác với xác suất 0,8.
Điều này có nghĩa là p cũng cần được cập nhật thành p= 0.2p + 0.8(1 − p) và p cập nhật
này nên được sử dụng trong phương trình 18.25 trong khi chọn hành động tốt nhất sau
khi đã chọn aS :

Hình 18.11b tương ứng với hình 18.10d với p được cập nhật. Bây giờ, khi lập kế hoạch
cho các tập có độ dài hai, chúng ta có hai hành động ngay lập tức là aL và aR, hoặc
chúng ta chờ đợi và cảm nhận khi p thay đổi, sau đó chúng ta thực hiện hành động và
nhận phần thưởng giảm giá của nó (hình 18.11b)
76
Hình 18.11 Phần thưởng
mong đợi thay đổi (a) nếu
trạng thái ẩn có thể thay đổi
và (b) khi chúng ta xem xét
các tập có độ dài hai.

Thuật toán mà chúng ta vừa thảo luận trong đó giá trị được biểu thị bằng các hàm tuyến
tính từng phần chỉ hoạt động khi số lượng trạng thái, hành động, quan sát và độ dài tập đều
hữu hạn. Ngay cả trong các ứng dụng mà bất kỳ ứng dụng nào trong số này không nhỏ
hoặc khi bất kỳ ứng dụng nào có giá trị liên tục, độ phức tạp sẽ trở nên cao và chúng ta cần
sử dụng các thuật toán gần đúng có độ phức tạp hợp lý.
77
18.8 Bài tập ví dụ
Làm lại ví dụ về con hổ bằng ma trận phần thưởng sau

Để giải bài toán này, chúng ta có thể sử dụng một thuật toán như Q-learning để tìm ra chính sách
tối ưu cho con hổ. Q-learning là một phương pháp học tăng cường được sử dụng để tìm ra hành
động tối ưu cho một tác nhân trong một môi trường không gian trạng thái và hành động được
biểu diễn dưới dạng bảng Q, trong đó mỗi cặp (trạng thái, hành động) có một giá trị Q ứng với
mức độ ước lượng của phần thưởng dự kiến. Cách áp dụng thuật toán Q-learning cho bài toán
con hổ với ma trận phần thưởng đã cho:
1.Khởi tạo ma trận Q với các giá trị ban đầu.
2.Lặp lại các bước sau cho mỗi episode (vòng lặp của môi trường):
1. Bắt đầu từ trạng thái ban đầu (Tiger).
2. Lặp lại các bước sau cho mỗi bước trong episode:
1.Chọn một hành động dựa trên chiến lược của con hổ (ví dụ: ε-greedy).
2.Thực hiện hành động và nhận phần thưởng từ môi trường.
3.Cập nhật ma trận Q sử dụng công thức Q-learning.
3. Nếu đạt được trạng thái mục tiêu hoặc đạt đến số lần lặp tối đa, kết thúc episode.
78
 Một cách thông thường để khởi tạo ma trận Q là gán các giá trị ban đầu cho tất cả các phần tử của
ma trận là 0. Dưới đây là ma trận Q được khởi tạo ban đầu: Q = [[0, 0],
[0, 0]]
 Trong ma trận này, hàng thứ nhất tương ứng với trạng thái "Tiger" khi con hổ chọn hành động
"left", và hàng thứ hai tương ứng với trạng thái "Tiger" khi con hổ chọn hành động "right". Các
giá trị ban đầu của ma trận Q đều được gán là 0, do chúng ta chưa có thông tin về giá trị Q thực
sự cho từng cặp (trạng thái, hành động).

•Q(s,a) là giá trị Q của trạng thái 𝑠s và hành động 𝑎a.


•𝑟(𝑠,𝑎)r(s,a) là phần thưởng nhận được khi thực hiện hành động 𝑎a ở trạng thái 𝑠s.
•𝑠′s′ là trạng thái mới sau khi thực hiện hành động 𝑎a.
•𝑎′a′ là hành động tối ưu được chọn cho trạng thái mới 𝑠′ s′.
•𝛼α là tỷ lệ học (learning rate), điều chỉnh mức độ mà giá trị Q được cập nhật dựa trên phần thưởng
mới.
•𝛾 γ là hệ số giảm (discount factor), điều chỉnh sự quan trọng của các phần thưởng trong tương lai so
với phần thưởng hiện tại.
79
• Tốc độ học (𝛼α): 0.5 (đây là giá trị thường được sử dụng, điều chỉnh mức độ mà giá trị Q được
cập nhật dựa trên phần thưởng mới).
• Hệ số giảm (𝛾γ): 0.9 (đây cũng là một giá trị thường được sử dụng, điều chỉnh sự quan trọng của
các phần thưởng trong tương lai so với phần thưởng hiện tại).
• Số lượng lặp lại (episodes): 100 (số lần mà chúng ta sẽ lặp lại quá trình huấn luyện).
• Bắt đầu từ ma trận Q được khởi tạo ban đầu:

Sau đó, chúng ta lặp lại các bước sau cho mỗi episode:
1.Bắt đầu từ trạng thái ban đầu "Tiger".
2.Lặp lại các bước sau cho mỗi bước trong episode:
1. Chọn một hành động dựa trên chiến lược của con hổ.
2. Thực hiện hành động và nhận phần thưởng từ môi trường.
3. Cập nhật giá trị Q sử dụng công thức Q-learning.
3.Kết thúc episode khi đạt được trạng thái mục tiêu hoặc đạt đến số lần lặp tối đa.
Sau khi huấn luyện xong, ma trận Q sẽ chứa các giá trị Q tối ưu. Từ ma trận Q này, chúng ta có
thể chọn hành động tối ưu cho mỗi trạng thái bằng cách chọn hành động có giá trị Q cao nhất.
80
81
Kết quả ma trận chạy và cho ra là hành động tối ưu cho mỗi trạng thái là [1,0]

82
Nếu hành động tối ưu cho mỗi trạng thái là 1 và 0, điều này có nghĩa là:
•Trong trạng thái đầu tiên (Tiger), hành động tối ưu là "right" (hoặc hành động 1).
•Trong trạng thái thứ hai (Tiger), hành động tối ưu là "left" (hoặc hành động 0).
Điều này có thể diễn giải như sau:
•Khi con hổ ở trạng thái Tiger, hành động tối ưu là rẽ phải để nhận được phần thưởng cao
hơn.
•Khi con hổ ở trạng thái Tiger và cửa mở bên phải, hành động tối ưu là rẽ trái để tránh bị phạt.
Vậy kết quả của thuật toán Q-learning sẽ chỉ ra rằng chiến lược tối ưu cho con hổ là rẽ phải
khi ở trạng thái đầu tiên (Tiger), và rẽ trái khi ở trạng thái thứ hai (Tiger).

83

You might also like