Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 16

18.5.

3 Phần thưởng và hành động không xác định


Nếu phần thưởng và kết quả của hành động không mang tính quyết định thì chúng ta có phân
phối xác suất cho phần thưởng p(rt+1|st, at ) từ đó phần thưởng được lấy mẫu và có phân phối
xác suất cho lần tiếp theo trạng thái P(st+1|st, at). Những điều này giúp chúng ta mô hình hóa sự
không chắc chắn trong hệ thống đó có thể là do các lực mà chúng ta không thể kiểm soát được
trong môi trường: vì Ví dụ, đối thủ của chúng ta trong cờ vua, con xúc xắc trong trò cờ thỏ cáo,
hoặc việc chúng ta thiếu kiến thức về hệ thống. Ví dụ: chúng ta có thể có một robot không hoàn
hảo đôi khi không đi theo hướng đã định và đi chệch hướng, hoặcc tiến bộ ngắn hơn hoặc dài
hơn dự kiến.
Chúng ta không thể thực hiện phép gán trực tiếp trong trường hợp này vì với cùng một trạng thái
và hành động, chúng ta có thể nhận được những phần thưởng khác nhau hoặc chuyển sang các
trạng thái tiếp theo khác nhau. Những gì chúng tôi làm là duy trì mức trung bình. Đây được gọi
là thuật toán học Q:

Hình 18.5 Q learning, là một thuật toán khác biệt thời gian ngoài chính sách.\

Chúng tôi coi các giá trị là mẫu của các trường hợp cho
mỗi cặp (st, at ) và chúng tôi muốn Q(s ˆ t, at ) hội tụ về ý nghĩa của nó. Như thường lệ, η giảm
dần theo thời gian hội tụ và người ta đã chứng minh rằng thuật toán này hội tụ về giá trị Q ∗ tối
ưu (Watkins và Dayan 1992). Mã giả của thuật toán học Q được cho trong hình 18.5. Chúng ta
cũng có thể coi phương trình 18.15 là việc giảm sự khác biệt giữa giá trị Q hiện tại và ước tính
dự phòng, từ một bước thời gian sau đó. Các thuật toán như vậy được gọi là thuật toán sai phân
thời gian (TD) (Sutton 1988). Đây là một phương pháp ngoài chính sách vì giá trị của hành động
tiếp theo tốt nhất được sử dụng mà không sử dụng chính sách. Trong phương pháp chính sách,
chính sách cũng được sử dụng để xác định hành động tiếp theo. Phiên bản chính sách của Q
learning là thuật toán Sarsa có mã giả được cho trong hình 18.6. Chúng tôi thấy rằng thay vì tìm
kiếm tất cả các hành động tiếp theo có thể xảy ra a và chọn hành động tốt nhất, Sarsa theo chính
sách sử dụng chính sách bắt nguồn từ các giá trị Q để chọn một hành động tiếp theo a và sử dụng
giá trị Q của nó để tính toán chênh lệch tạm thời. Các phương pháp chính sách ước tính giá trị
của chính sách trong khi sử dụng chính sách đó để thực hiện hành động. Trong các phương pháp
ngoài chính sách, chúng được tách riêng và chính sách được sử dụng để tạo ra hành vi, được gọi
là chính sách hành vi, trên thực tế có thể là khác với chính sách được đánh giá và cải tiến, gọi là
chính sách ước lượng. Sarsa hội tụ với xác suất 1 đến các giá trị hành động và chính sách tối ưu
nếu chính sách GLIE được sử dụng để chọn hành động. Chính sách GLIE (tham lam trong giới
hạn với khả năng khám phá vô hạn) là trong đó (1) tất cả các cặp hành động trạng thái được truy
cập vô số lần và (2) chính sách hội tụ trong giới hạn của chính sách tham lam (có thể được sắp
xếp, ví dụ: với chính sách -tham lam bằng cách đặt = 1/t).

Hình 18.6 Thuật toán Sarsa, là phiên bản chính sách của Q learning.
Ý tưởng tương tự về sự khác biệt về thời gian cũng có thể được sử dụng để tìm hiểu các giá trị
V(s), thay vì Q(s, a). Học TD (Sutton 1988) sử dụng quy tắc cập nhật sau để cập nhật giá trị
trạng thái:

Đây lại là quy tắc delta trong đó rt+1 + γV (st+1) là dự đoán muộn hơn, tốt hơn và V (st ) là ước
tính hiện tại. Sự khác biệt của chúng là sự khác biệt về thời gian và việc cập nhật được thực hiện
để giảm sự khác biệt này. Hệ số cập nhật η giảm dần và TD đảm bảo hội tụ về hàm giá trị tối ưu
V ∗(s).
18.5.4 Dấu vết đủ điều kiện
Các thuật toán trước đó là một bước—nghĩa là, sự khác biệt về thời gian được sử dụng để chỉ cập
nhật giá trị trước đó (của cặp trạng thái hoặc trạng thái-hành động). Dấu vết về tính đủ điều kiện
là một bản ghi về sự xuất hiện của các lần truy cập trước đây cho phép chúng tôi thực hiện phân
công tín dụng tạm thời, cho phép chúng tôi cập nhật giá trị của các lượt truy cập đã xảy ra trước
đó. Chúng tôi thảo luận cách thực hiện điều này với Sarsa để tìm hiểu các giá trị Q; việc điều
chỉnh điều này để tìm hiểu các giá trị V rất đơn giản. Để lưu trữ dấu vết đủ điều kiện, chúng tôi
yêu cầu một biến bộ nhớ bổ sung được liên kết với từng cặp hành động trạng thái, e(s, a), được
khởi tạo bằng 0. Khi cặp hành động trạng thái (s, a) được truy cập, cụ thể là khi chúng tôi lấy
hành động a ở trạng thái s, tính đủ điều kiện của nó được đặt thành 1; tính đủ điều kiện của tất cả
các cặp hành động trạng thái khác được nhân với γλ. 0 ≤ λ 1 là tham số phân rã dấu vết.

Hình 18.7 Ví dụ về dấu vết đủ điều kiện cho một giá trị. Các lượt truy cập được đánh dấu bằng
dấu hoa thị

Nếu một cặp hành động trạng thái chưa bao giờ được truy cập thì tính đủ điều kiện của nó vẫn là
0; nếu nó đã như vậy, khi thời gian trôi qua và các hành động trạng thái khác được truy cập, tính
đủ điều kiện của nó sẽ giảm dần tùy thuộc vào giá trị của γ và λ (xem hình 18.7). Chúng ta nhớ
rằng ở Sarsa, sai số thời gian tại thời điểm t là

Trong Sarsa có dấu vết đủ điều kiện, được đặt tên là Sarsa(λ), tất cả các cặp hành động trạng thái
được cập nhật dưới dạng

Hình 18.8 Thuật toán Sarsa(λ).

Việc này cập nhật tất cả các cặp hành động trạng thái đủ điều kiện, trong đó việc cập nhật phụ
thuộc vào mức độ chúng đã xảy ra trong quá khứ. Giá trị của λ xác định tín dụng tạm thời: nếu λ
= 0, chỉ cập nhật một bước được thực hiện. Các thuật toán thuật toán mà chúng ta đã thảo luận
trong phần 18.5.3 là như vậy và vì lý do này mà chúng được đặt tên là Q(0), Sarsa(0) hoặc
TD(0). Khi λ tiến gần đến 1 hơn, nhiều bước trước đó sẽ được xem xét hơn. Khi λ = 1, tất cả các
bước trước đó sẽ được cập nhật và tín dụng được cấp cho chúng chỉ giảm γ mỗi bước. Trong cập
nhật trực tuyến, tất cả các giá trị đủ điều kiện sẽ được cập nhật ngay sau mỗi bước; trong cập
nhật ngoại tuyến, các bản cập nhật được tích lũy và một bản cập nhật duy nhất được thực hiện ở
cuối tập. Cập nhật trực tuyến mất nhiều thời gian hơn nhưng hội tụ nhanh hơn. Mã giả cho
Sarsa(λ) được cho trong hình 18.8. Thuật toán Q(λ) và TD(λ) có thể được rút ra tương tự (Sutton
và Barto 1998).
18.6 Khái quát hóa
Cho đến bây giờ, chúng ta giả định rằng các giá trị Q(s, a) (hoặc V(s), nếu chúng ta ước tính giá
trị của các trạng thái) được lưu trữ trong một bảng tra cứu và các thuật toán mà chúng ta đã xem
xét trước đó được gọi là các thuật toán dạng bảng. Có một số vấn đề với cách tiếp cận này: (1)
khi số lượng trạng thái và số lượng hành động lớn, kích thước của bảng có thể trở nên khá lớn;
(2) các trạng thái và hành động có thể liên tục, chẳng hạn như quay vô lăng theo một góc nhất
định, sử dụng bàn phải rời rạc, có thể gây ra sai sót; và (3) khi không gian tìm kiếm lớn, có thể
cần quá nhiều tập để điền vào tất cả các mục trong bảng với độ chính xác chấp nhận được. Thay
vì lưu trữ các giá trị Q như hiện tại, chúng ta có thể coi đây là một vấn đề hồi quy. Đây là một bài
toán học có giám sát trong đó chúng ta xác định một biến hồi quy Q(s, a|θ), lấy s và a làm đầu
vào và được tham số hóa bởi một vectơ tham số, θ, để tìm hiểu các giá trị Q. Ví dụ: đây có thể là
một mạng nơ ron nhân tạo với s và a làm đầu vào, một đầu ra và θ trọng số kết nối của nó. Một
công cụ xấp xỉ hàm tốt có những ưu điểm thông thường và giải quyết được các vấn đề
vấn đề đã thảo luận trước đó. Có thể đạt được kết quả gần đúng tốt với một mô hình đơn giản mà
không cần lưu trữ rõ ràng các trường hợp huấn luyện; nó có thể sử dụng đầu vào liên tục; và nó
cho phép khái quát hóa. Nếu chúng ta biết rằng các cặp (s, a) tương tự có giá trị Q tương tự nhau,
chúng ta có thể khái quát hóa từ các trường hợp trong quá khứ và đưa ra các giá trị Q(s, a) tốt
ngay cả khi cặp trạng thái-hành động đó chưa từng gặp trước đây. Để có thể huấn luyện bộ hồi
quy, chúng ta cần một tập huấn luyện. Trong trường hợp Sarsa(0), trước đó chúng ta đã thấy rằng
chúng ta muốn Q(st, at ) tiến gần đến rt+1 + γQ(st+1, at+1). Vì vậy, chúng ta có thể tạo một tập
hợp các mẫu huấn luyện trong đó đầu vào là cặp trạng thái-hành động (st, at ) và đầu ra yêu cầu
là rt+1 + γQ(st+1, at+1). Chúng ta có thể viết sai số bình phương là

Các tập huấn luyện có thể được định nghĩa tương tự cho Q(0) và TD(0), trong trường hợp sau,
chúng ta học V (s) và đầu ra yêu cầu là rt+1 − γV (st+1). Khi tập hợp như vậy đã sẵn sàng, chúng
ta có thể sử dụng bất kỳ thuật toán học có giám sát nào để học tập huấn luyện. Nếu chúng ta đang
sử dụng phương pháp giảm độ dốc, như trong quá trình huấn luyện mạng nơron, thì vectơ tham
số sẽ được cập nhật thành
Đây là bản cập nhật một bước. Trong trường hợp Sarsa(λ), dấu vết đủ điều kiện cũng được tính
đến:

lỗi chênh lệch thời gian ở đâu

và vectơ đủ điều kiện của các tham số được cập nhật dưới dạng

với e0 tất cả đều là số không. Trong trường hợp thuật toán dạng bảng, các tính đủ điều kiện được
lưu trữ cho các cặp trạng thái-hành động vì chúng là các tham số (được lưu dưới dạng bảng).
Trong trường hợp công cụ ước tính, tính đủ điều kiện được liên kết với các tham số của công cụ
ước tính. Chúng tôi cũng lưu ý rằng điều này rất giống với phương pháp động lượng để ổn định
lan truyền ngược (phần 11.8.1). Sự khác biệt là trong trường hợp động lượng, những thay đổi
trọng lượng trước đó được ghi nhớ, trong khi ở đây các vectơ gradient trước đó được ghi nhớ.
Tùy thuộc vào mô hình được sử dụng cho Q(st, at ), chẳng hạn như mạng nơ-ron, chúng ta thế
vectơ gradient của nó vào phương trình 18.23. Về lý thuyết, bất kỳ phương pháp hồi quy nào
cũng có thể được sử dụng để huấn luyện hàm Q, nhưng nhiệm vụ cụ thể có một số yêu cầu. Đầu
tiên, nó phải có tính khái quát thấp; nghĩa là chúng ta thực sự cần đảm bảo rằng các trạng thái và
hành động tương tự có giá trị Q tương tự. Điều này cũng đòi hỏi phải mã hóa tốt s và a, như
trong bất kỳ ứng dụng nào, để làm cho những điểm tương đồng trở nên rõ ràng. Thứ hai, các bản
cập nhật học tăng cường cung cấp từng trường hợp một chứ không phải toàn bộ tập huấn luyện
và thuật toán học sẽ có thể thực hiện cập nhật riêng lẻ để học phiên bản mới mà không quên
những gì đã học trước đó. Ví dụ, một perceptron nhiều lớp sử dụng phương pháp lan truyền
ngược chỉ có thể được huấn luyện với một phiên bản duy nhất nếu sử dụng tốc độ học tập nhỏ.
Hoặc, những trường hợp như vậy có thể được thu thập để tạo thành một tập huấn luyện và được
học hoàn toàn nhưng điều này làm chậm quá trình học vì không có quá trình học nào xảy ra
trong khi một mẫu đủ lớn đang được thu thập. Vì những lý do này, có vẻ nên sử dụng những
người học tại địa phương để học các giá trị Q. Trong các phương pháp như vậy, chẳng hạn như
các hàm cơ sở xuyên tâm, thông tin được bản địa hóa và khi một phiên bản mới được học, chỉ
một phần cục bộ của bộ học được cập nhật mà không làm hỏng thông tin ở phần khác. Các yêu
cầu tương tự cũng được áp dụng nếu chúng ta ước tính các giá trị trạng thái là V (st|θ).
18.7 Các trạng thái có thể quan sát được một phần
18.7.1 Cài đặt
Trong một số ứng dụng nhất định, tác nhân không biết chính xác trạng thái. Nó được trang bị các
cảm biến trả về một quan sát, sau đó tác nhân sẽ sử dụng để ước tính trạng thái. Giả sử chúng ta
có một robot điều hướng trong một căn phòng. Robot có thể không biết chính xác vị trí của nó
trong phòng hoặc có những gì khác trong phòng. Robot có thể có một camera để ghi lại các quan
sát giác quan. Điều này không cho robot biết chính xác trạng thái của nó nhưng đưa ra một số
dấu hiệu về trạng thái có thể xảy ra của nó. Ví dụ, robot có thể chỉ biết rằng có chướng ngại vật ở
bên phải nó. Cài đặt này giống như quy trình quyết định Markov, ngoại trừ việc sau khi thực hiện
một hành động tại, trạng thái mới st+1 không được biết, nhưng chúng ta có một quan sát ot+1 là
hàm ngẫu nhiên của st và at: p(ot+1 |st, tại ). Đây được gọi là MDP có thể quan sát được một
phần (POMDP). Nếu ot+1 = st+1 thì POMDP giảm xuống MDP. Điều này giống như sự khác
biệt giữa mô hình Markov có thể quan sát và mô hình Markov ẩn và cách giải cũng tương tự;
nghĩa là, từ quan sát, chúng ta cần suy ra trạng thái (hay đúng hơn là phân bố xác suất cho các
trạng thái) và sau đó hành động dựa trên điều này. Nếu tác nhân tin rằng nó ở trạng thái s1 với
xác suất 0,4 và ở trạng thái s2 với xác suất 0,6, thì giá trị của bất kỳ hành động nào là 0,4 lần giá
trị của hành động trong s1 cộng với 0,6 lần giá trị của hành động trong s2. Thuộc tính Markov
không đúng cho các quan sát. Việc quan sát trạng thái tiếp theo không chỉ phụ thuộc vào hành
động và quan sát hiện tại. Khi khả năng quan sát bị hạn chế, hai trạng thái có thể giống nhau
nhưng khác nhau và nếu hai trạng thái này yêu cầu các hành động khác nhau thì điều này có thể
dẫn đến giảm hiệu suất, được đo bằng phần thưởng tích lũy. Tác nhân bằng cách nào đó nên nén
quỹ đạo trong quá khứ thành ước tính trạng thái duy nhất hiện tại. Những quan sát trong quá khứ
này cũng có thể được tính đến bằng cách lấy cửa sổ quan sát trong quá khứ làm đầu vào cho
chính sách hoặc người ta có thể sử dụng mạng thần kinh hồi quy (phần 11.12.2) để duy trì trạng
thái mà không quên các quan sát trong quá khứ. Bất cứ lúc nào, tác nhân có thể tính toán trạng
thái có khả năng xảy ra nhất và thực hiện hành động tương ứng. Hoặc nó có thể thực hiện một
hành động để thu thập thông tin và giảm bớt sự không chắc chắn, chẳng hạn như tìm kiếm một
điểm mốc hoặc dừng lại để hỏi đường. Điều này ngụ ý tầm quan trọng của giá trị thông tin và
thực sự POMDP có thể được mô hình hóa dưới dạng sơ đồ ảnh hưởng động (phần 16.8). Đại lý
lựa chọn giữa các hành động dựa trên số lượng thông tin họ cung cấp, số lượng phần thưởng họ
tạo ra và cách họ thay đổi trạng thái môi trường. trạng thái niềm tin Để giữ quy trình Markov, tác
nhân giữ trạng thái niềm tin bên trong bt tóm tắt kinh nghiệm của nó (xem hình 18.9). Tác nhân
có một công cụ ước tính trạng thái cập nhật trạng thái niềm tin bt+1 dựa trên hành động cuối
cùng tại, quan sát hiện tại ot+1 và trạng thái niềm tin trước đó của nó bt. Có một chính sách π tạo
ra hành động tiếp theo ở mức +1 dựa trên trạng thái niềm tin này, trái ngược với trạng thái thực
tế mà chúng ta có trong một môi trường hoàn toàn có thể quan sát được. Trạng thái niềm tin là sự
phân bổ xác suất trên các trạng thái của môi trường dựa trên trạng thái niềm tin ban đầu (trước
khi chúng tôi thực hiện bất kỳ hành động nào) và lịch sử hành động quan sát trong quá khứ của
tác nhân (không bỏ sót bất kỳ thông tin nào có thể cải thiện hiệu suất của tác nhân). Việc học Q
trong trường hợp như vậy liên quan đến các giá trị cặp trạng thái-hành động niềm tin, thay vì các
cặp trạng thái-hành động thực tế:
Hình 18.9 Trong trường hợp môi trường có thể quan sát được một phần, tác nhân có bộ ước tính
trạng thái (SE) giữ trạng thái niềm tin bên trong b và chính sách π tạo ra các hành động dựa trên
trạng thái niềm tin
18.7.2 Ví dụ: Vấn đề con hổ
Bây giờ chúng ta thảo luận về một ví dụ là một phiên bản hơi khác của bài toán Tiger được thảo
luận trong Kaelbling, Littman và Cassandra 1998, được sửa đổi như trong ví dụ trong Thrun,
Burgard và Fox 2005. Giả sử chúng ta là đứng trước hai cánh cửa, một bên trái và một bên phải,
dẫn đến hai căn phòng. Sau một trong hai cánh cửa, không biết cửa nào có hổ đang ngồi, phía
sau cửa kia có bảo vật. Nếu mở cửa phòng có hổ, chúng ta sẽ nhận được phần thưởng âm lớn,
còn nếu mở cửa phòng kho báu, chúng ta sẽ nhận được phần thưởng tích cực. Trạng thái ẩn zL là
vị trí của con hổ. Giả sử p biểu thị xác suất con hổ ở trong phòng bên trái và do đó, con hổ ở
trong phòng bên phải với xác suất 1 − p: p ≡ P(zL = 1) Hai hành động lần lượt là aL và aR tương
ứng với việc mở cửa bên trái hoặc cửa bên phải. Phần thưởng a

Chúng ta có thể tính toán phần thưởng mong đợi cho hai hành động. Không có phần thưởng
trong tương lai vì tập phim kết thúc khi chúng tôi mở một trong các cánh cửa.
Với những phần thưởng này, nếu p gần bằng 1, nếu chúng ta tin rằng có khả năng cao là con hổ ở
bên trái, thì hành động đúng sẽ là chọn cửa bên phải, và tương tự, với p gần 0, nó sẽ tốt hơn nên
chọn cửa bên trái.
Hai đường này giao nhau với p khoảng 0,5 và ở đó phần thưởng mong đợi là khoảng −10. Thực
tế là phần thưởng kỳ vọng là âm khi p ở khoảng 0,5 (khi chúng ta không chắc chắn) cho thấy tầm
quan trọng của việc thu thập thông tin. Nếu chúng ta có thể thêm các cảm biến để giảm độ không
chắc chắn— tức là di chuyển p từ 0,5 đến gần 0 hoặc gần 1—chúng ta có thể thực hiện các hành
động mang lại phần thưởng tích cực cao. Hành động cảm nhận đó, aS , có thể có phần thưởng âm
nhỏ: R(aS ) = −1; đây có thể được coi là chi phí cảm biến hoặc tương đương với việc giảm giá
phần thưởng trong tương lai γ < 1 vì chúng tôi đang trì hoãn thực hiện hành động thực tế (mở
một trong các cánh cửa). Trong trường hợp như vậy, phần thưởng và giá trị mong đợi của hành
động tốt nhất được thể hiện trong hình 18.10a
Giả sử với tư cách là đầu vào cảm giác, chúng tôi sử dụng micrô để kiểm tra xem con hổ ở sau
cửa bên trái hay bên phải. Nhưng chúng ta có những cảm biến không đáng tin cậy (nên chúng ta
vẫn ở trong phạm vi có thể quan sát được một phần). Giả sử chúng ta chỉ có thể phát hiện sự hiện
diện của hổ với xác suất 0,7:

Nếu chúng ta cảm nhận được oL, niềm tin của chúng ta vào vị trí của con hổ sẽ thay đổi:

Hiệu ứng của điều này được thể hiện trong hình 18.10b trong đó chúng ta vẽ đồ thị R(aL|oL).
Cảm biến oL biến việc mở cửa bên phải thành hành động tốt hơn trong phạm vi rộng hơn. Chúng
ta càng có những cảm biến tốt hơn (nếu xác suất cảm nhận chính xác tăng từ 0,7 lên gần 1) thì
phạm vi này càng lớn (bài tập 9). Tương tự, như chúng ta thấy trong hình 18.10c, nếu chúng ta
cảm nhận được oR, điều này sẽ làm tăng cơ hội mở được cửa bên trái. Lưu ý rằng cảm biến cũng
làm giảm phạm vi cần cảm nhận (một lần nữa). Phần thưởng mong đợi cho các hành động trong
trường hợp này là
Hành động tốt nhất trong trường hợp này là tối đa trong ba hành động này. Tương tự, nếu chúng
ta cảm nhận được orR, phần thưởng mong đợi sẽ trở thành
Hình 18.10 Phần thưởng mong đợi và tác động của việc cảm nhận trong vấn đề Tiger.\

Để tính phần thưởng mong đợi, chúng ta cần lấy mức trung bình trên cả hai chỉ số cảm biến được
tính theo xác suất của chúng
Lưu ý rằng khi chúng ta nhân với P(oL), nó bị triệt tiêu và chúng ta nhận được các hàm tuyến
tính trong p. Năm đường này và hàm từng phần tương ứng với giá trị cực đại của chúng được thể
hiện trong hình 18.10d. Lưu ý rằng đường −40p − 5(1 − p), cũng như những đường liên quan đến
aS, nằm dưới các đường khác đối với tất cả các giá trị của p và có thể được cắt bớt một cách an
toàn. Việc hình 18.10d tốt hơn hình 18.10a cho thấy giá trị của thông tin. Những gì chúng tôi tính
toán ở đây là giá trị của hành động tốt nhất mà chúng tôi đã chọn aS . Ví dụ: dòng đầu tiên tương
ứng với việc chọn aL sau aS. Vì vậy, để tìm ra quyết định tốt nhất với một tập có độ dài hai,
chúng ta cần sao lưu điều này bằng cách trừ −1, đây là phần thưởng của aS và nhận được phần
thưởng mong đợi cho hành động có ý nghĩa. Tương tự, chúng ta có thể coi đây là việc chờ đợi có
phần thưởng ngay lập tức là 0 nhưng giảm phần thưởng trong tương lai một số γ < 1. Chúng ta
cũng có hai hành động thông thường là aL và aR và chúng ta chọn hành động tốt nhất trong ba
hành động; hai hành động ngay lập tức và một hành động được giảm giá trong tương lai. Bây giờ
chúng ta hãy làm cho vấn đề trở nên thú vị hơn, như trong ví dụ của Thrun, Burgard và Fox
2005. Giả sử rằng có một cánh cửa giữa hai phòng và nếu chúng ta không nhìn thấy, con hổ có
thể di chuyển từ phòng này sang phòng khác. Giả sử đây là một con hổ bồn chồn và nó ở trong
cùng một phòng với xác suất 0,2 và chuyển sang phòng khác với xác suất 0,8. Điều này có nghĩa
là p cũng cần được cập nhật thành
p= 0.2p + 0.8(1 − p)
và p cập nhật này nên được sử dụng trong phương trình 18.25 trong khi chọn hành động tốt nhất
sau khi đã chọn aS :
Hình 18.11b tương ứng với hình 18.10d với p được cập nhật. Bây giờ, khi lập kế hoạch cho các
tập có độ dài hai, chúng ta có hai hành động ngay lập tức là aL và aR, hoặc chúng ta chờ đợi và
cảm nhận khi p thay đổi, sau đó chúng ta thực hiện hành động và nhận phần thưởng giảm giá của
nó (hình 18.11b)

Hình 18.11 Phần thưởng mong đợi thay đổi (a) nếu trạng thái ẩn có thể thay đổi và (b) khi chúng
ta xem xét các tập có độ dài hai.

\
Ta thấy hình 18.11b đẹp hơn hình 18.10a; khi những hành động sai trái có thể dẫn đến hình phạt
nặng nề, tốt hơn hết bạn nên trì hoãn việc phán xét, tìm kiếm thêm thông tin và lên kế hoạch
trước. Chúng ta có thể xem xét các đoạn dài hơn bằng cách tiếp tục cập nhật lặp lại của p và chiết
khấu bằng cách trừ 1 và bao gồm cả hai hành động ngay lập tức để tính Vt,t > 2. Thuật toán mà
chúng ta vừa thảo luận trong đó giá trị được biểu thị bằng các hàm tuyến tính từng phần chỉ hoạt
động khi số lượng trạng thái, hành động, quan sát và độ dài tập đều hữu hạn. Ngay cả trong các
ứng dụng mà bất kỳ ứng dụng nào trong số này không nhỏ hoặc khi bất kỳ ứng dụng nào có giá
trị liên tục, độ phức tạp sẽ trở nên cao và chúng ta cần sử dụng các thuật toán gần đúng có độ
phức tạp hợp lý. Đánh giá về các thuật toán như vậy được đưa ra trong Hauskrecht 2000 và
Thrun, Burgard và Fox 2005.
18.8 Ghi chú
Thông tin thêm về học tăng cường có thể được tìm thấy trong sách giáo khoa của Sutton và Barto
(1998) thảo luận về tất cả các khía cạnh, thuật toán học và một số ứng dụng. Một hướng dẫn toàn
diện là Kaelbling Littman, và Moore 1996. Công trình gần đây về học tăng cường áp dụng cho
robot với một số ứng dụng ấn tượng được đưa ra trong Thrun, Burgard và Fox 2005. Các phương
pháp lập trình động được thảo luận trong Bertsekas 1987 và trong Bertsekas và Tsitsiklis 1996,
và TD(λ) và Q-learning có thể được coi là các phép tính gần đúng ngẫu nhiên đối với lập trình
động (Jaakkola, Jordan và Singh 1994). Học tăng cường có hai ưu điểm so với lập trình động cổ
điển: thứ nhất, khi học, họ có thể tập trung vào các phần không gian quan trọng và bỏ qua phần
còn lại; và thứ hai, họ có thể sử dụng các phương pháp xấp xỉ hàm số để biểu diễn kiến thức cho
phép họ khái quát hóa và học nhanh hơn.
Một lĩnh vực liên quan là học automata (Narendra và Thathachar 1974), là những cỗ máy trạng
thái hữu hạn học bằng cách thử và sai để giải quyết các vấn đề như tên cướp vũ trang K. Cài đặt
chúng tôi có ở đây cũng là chủ đề kiểm soát tối ưu trong đó có người kiểm soát (tác nhân) thực
hiện các hành động trong nhà máy (môi trường) nhằm giảm thiểu chi phí (tối đa hóa phần
thưởng). Việc sử dụng sớm nhất phương pháp sai phân thời gian là trong chương trình kiểm tra
của Samuel viết năm 1959 (Sutton và Barto 1998). Đối với mỗi hai vị trí thành công trong một
trò chơi, hai trạng thái bảng được đánh giá bằng chức năng đánh giá bảng, sau đó khiến bản cập
nhật làm giảm sự khác biệt. Đã có nhiều công việc nghiên cứu về trò chơi vì trò chơi vừa dễ xác
định vừa đầy thử thách. Một trò chơi như cờ vua có thể dễ dàng được mô phỏng: các nước đi
được phép mang tính hình thức và mục tiêu được xác định rõ ràng. Mặc dù cách xác định trò
chơi đơn giản nhưng việc chơi chuyên nghiệp lại khá khó khăn.
Một trong những ứng dụng ấn tượng nhất của học tăng cường là
chương trình TD-Gammon học cách chơi cờ thỏ cáo bằng cách chơi với chính nó (Tesauro
1995). Chương trình này vượt trội hơn so với chương trình Neurogammon trước đây cũng do
Tesauro phát triển, được đào tạo một cách có giám sát dựa trên các vở kịch của các chuyên gia.
Backgammon là một nhiệm vụ phức tạp với khoảng 1020 trạng thái và có tính ngẫu nhiên do
việc tung xúc xắc. Sử dụng thuật toán TD(λ), chương trình đạt được cấp độ chơi cao nhất sau khi
chơi 1.500.000 trò chơi với bản sao của chính nó.
Một ứng dụng thú vị khác là lên lịch việc làm hoặc tìm kiếm
một lịch trình các nhiệm vụ thỏa mãn những hạn chế về thời gian và nguồn lực (Zhang và
Dietterich 1996). Một số nhiệm vụ phải được hoàn thành trước khi những nhiệm vụ khác có thể
được bắt đầu và hai nhiệm vụ yêu cầu cùng một nguồn lực không thể được thực hiện đồng thời.
Zhang và Dietterich đã sử dụng phương pháp học tăng cường để nhanh chóng tìm ra các lịch
trình đáp ứng các ràng buộc và thời gian ngắn. Mỗi trạng thái là một lịch trình, các hành động là
các sửa đổi lịch trình và chương trình không tìm thấy

ure 18.12 Thế giới lưới. Tác nhân có thể di chuyển theo bốn hướng la bàn bắt đầu từ S. Trạng
thái mục tiêu là G.
chỉ có một lịch trình tốt nhưng là một lịch trình cho một lớp các vấn đề về lập kế hoạch có liên
quan. Gần đây, các phương pháp phân cấp cũng đã được đề xuất trong đó bài toán được phân
tách thành một tập hợp các bài toán con. Điều này có ưu điểm là các chính sách đã học cho các
bài toán con có thể được chia sẻ cho nhiều bài toán, điều này giúp đẩy nhanh việc học một bài
toán mới (Dietterich 2000). Mỗi bài toán con đơn giản hơn và việc học chúng riêng biệt sẽ nhanh
hơn. Điều bất lợi là khi chúng được kết hợp lại, chính sách có thể không tối ưu. Mặc dù các thuật
toán học tăng cường chậm hơn các thuật toán học có giám sát nhưng rõ ràng là chúng có nhiều
ứng dụng đa dạng hơn và có tiềm năng xây dựng các máy học tốt hơn (Ballard 1997). Họ không
cần bất kỳ sự giám sát nào, và điều này thực sự có thể tốt hơn vì khi đó họ không bị giáo viên
thiên vị. Ví dụ: chương trình TD-Gammon của Tesauro trong một số trường hợp nhất định đã
đưa ra những bước đi tỏ ra vượt trội hơn so với những bước đi do những người chơi giỏi nhất
thực hiện. Lĩnh vực học tăng cường đang phát triển nhanh chóng và chúng ta có thể mong đợi
những kết quả ấn tượng khác trong tương lai gần
8.9 Bài tập ví dụ
3. Trong bài tập 1, chính sách tối ưu thay đổi như thế nào nếu một trạng thái mục tiêu khác được
thêm vào góc dưới bên phải? Điều gì xảy ra nếu trạng thái thưởng −100 (trạng thái rất xấu) được
xác định ở góc dưới bên phải?
4. Thay vì có γ < 1, chúng ta có thể có γ = 1 nhưng với phần thưởng âm −c cho tất cả các trạng
thái trung gian (không đạt mục tiêu). Sự khác biệt là gì?
5. Trong bài tập 1, giả sử rằng phần thưởng khi đến trạng thái mục tiêu được phân phối chuẩn với
trung bình 100 và phương sai 40. Cũng giả sử rằng các hành động cũng mang tính ngẫu nhiên ở
chỗ khi robot tiến theo một hướng, nó sẽ di chuyển theo hướng đã định với xác suất 0,5 và có
xác suất 0,25 rằng nó di chuyển theo một trong các hướng ngang. Tìm hiểu Q(s, a) trong trường
hợp này.
6. Giả sử chúng ta đang ước tính hàm giá trị cho các trạng thái V (s) và chúng ta muốn sử dụng
thuật toán TD(λ). Lấy bản cập nhật lặp lại giá trị dạng bảng.
7. Sử dụng phương trình 18.22, rút ra phương trình cập nhật trọng số khi sử dụng perceptron đa
lớp để ước lượng Q.
8. Cho ví dụ về ứng dụng học tăng cường có thể được mô hình hóa bằng POMDP. Xác định các
trạng thái, hành động, quan sát và khen thưởng.
9. Trong ví dụ về con hổ, hãy chỉ ra rằng khi chúng ta có được cảm biến đáng tin cậy hơn thì
phạm vi mà chúng ta cần cảm nhận lại một lần nữa lại giảm đi.
10. Làm lại ví dụ về con hổ bằng ma trận phần thưởng sau

You might also like