Cân Bằng Nash

You might also like

Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 10

Để xác định kết cục có thể có của trò chơi, chúng ta đã tìm các chiến lược “tự xác

định”
hoặc “ổn định”. Các chiến lược ưu thế/áp đảo là các chiến lược ổn định, nhưng trong nhiều
trò chơi, một hoặc nhiều người có thể không có chiến lược áp đảo. Vì thế chúng ta cần một
khái niệm cân bằng tổng quát hơn. Và một khái niệm được John Nash phát hiện. Ông phát
biểu rằng:
“Mỗi công ty đang làm những gì tốt nhất có thể so với những gì đối thủ cạnh tranh của họ
đang làm” (John Nash)
3.CÂN BẰNG NASH
- Cân bằng Nash (Nash Equilibrium)
Khái niệm này lần đầu tiên được giải thích rõ ràng bởi nhà toán học John Nash vào
năm 1951, vì vậy chúng ta gọi trạng thái cân bằng mà nó mô tả là cân bằng Nash.
Có thể hiểu một cách dễ dàng hơn như sau:
Cân bằng Nash là tập hợp các chiến lược (hay hành động) sao cho mỗi người chơi
làm tốt nhất mà họ có thể (tức là nhận được lợi ích tối đa), với những hành động của đối thủ
được cho trước.
Cân bằng Nash là tập hợp các chiến lược (mỗi người chơi có một chiến lược) sao
cho không người chơi nào có động cơ đơn phương thay đổi hành động của họ.
Trong thế cân bằng này, nếu một người chơi thay đổi chiến lược, người này sẽ nhận
được kết cục thấp hơn. Tuy nhiên, không có người chơi nào có động cơ xa rời chiến lược
Nash của mình, do đó nó ổn định.
- Xác định cân bằng Nash
Đối với mỗi người chơi, tìm phản ứng tốt nhất (best response) trước mỗi chiến lược
của đối phương.
Cân bằng Nash là cân bằng được tạo ra với những chiến lược phản ứng tốt nhất của
tất cả người chơi.
Điểm cân bằng Nash là một cặp chiến lược (a*, b*) đại diện cho giải pháp cân bằng
đối với hai người chơi trong đó a* là chiến lược tối ưu của người A và b* là chiến lược tối
ưu của người B để đối phó lẫn nhau.
Tính chất:
● Ổn định và bền vững về mặt chiến lược (strategically stable)
● Có tính tự chế tài (self-enforcement)

1
Trong một trò chơi, có thể: Có một cân bằng Nash duy nhất, Có nhiều cân bằng Nash
hoặc Không có cân bằng Nash nào.
- Trò chơi với cân bằng Nash duy nhất
- Trò chơi có chiến lược áp đảo (cả hai công ty đều có chiến lược áp đảo)
Ví dụ:
- A và B bán những sản phẩm cạnh tranh
- Họ quyết định liệu rằng có nên quảng cáo hay không?

Nhận xét:
○ A: bất chấp B làm gì, quảng cáo là tốt nhất
○ B: bất chấp A làm gì, quảng cáo là tốt nhất
○ Chiến lược áp đảo cho A và B là quảng cáo
○ Không lo lắng về người chơi kia
○ Cân bằng trong chiến lược áp đảo: (Quảng cáo; Quảng cáo)
=> Kết luận: Cân bằng chiến lược áp đảo -> cân bằng Nash duy nhất. Điều ngược lại chưa
chắc là đúng (Cân bằng Nash duy nhất không thể suy ra là cân bằng chiến lược áp đảo) bởi
có thể có 1 trong 2 công ty không có chiến lược áp đảo và lúc đó cân bằng Nash duy nhất
không còn là cân bằng chiến lược áp đảo nữa.
- Trò chơi không có chiến lược áp đảo (1 công ty có chiến lược áp đảo, 1 công ty
không có chiến lược áp đảo)
- Chiến lược tối ưu của một người chơi mà không có chiến lược áp đảo sẽ phụ

2
thuộc vào những gì đối thủ làm
- Xem lại ma trận kết quả ở ví dụ trước, chúng ta có thể thấy tình huống mà
không có chiến lược áp đảo

Nhận xét:
○ A: không có chiến lược áp đảo (Vì 10 < 20 nhưng 15 > 10 => chiến lược
không nằm trên cùng một hàng); phụ thuộc vào hành động của B
○ B: Chiến lược áp đảo là quảng cáo (Vì 5 > 0 và 8 > 2 => Chiến lược nằm trên
cùng một cột)
Câu hỏi: Vậy A nên làm gì?

3
Trả lời:
○ Hãng A xác định chiến lược áp đảo của B và theo đó ra quyết định
○ Dưới góc nhìn của A, B quyết định quảng cáo => Để đạt lợi ích tối đa, A sẽ
chọn không quảng cáo. Do lợi ích của không quảng cáo lớn hơn lợi ích của
quảng cáo (10 < 20)
○ Cân bằng Nash: (không quảng cáo, quảng cáo)
- Xem xét lại cân bằng Nash
● Một chiến lược áp đảo thì ổn định, nhưng trong nhiều trò chơi thì một hay nhiều
người chơi lại không có
● Chiến lược áp đảo
○ “Tôi làm tốt nhất có thể bất chấp anh làm gì. Anh làm tốt nhất có thể bất chấp
tôi làm gì.”
● Cân bằng Nash
○ “Tôi làm tốt nhất có thể cho trước những gì anh làm. Anh làm tốt nhất có thể
cho trước những gì tôi làm.”
● Chiến lược áp đảo là trường hợp đặc biệt của cân bằng Nash.
- Trò chơi với nhiều cân bằng Nash
- Trò chơi hợp tác (Stag Hunt game - J. J. Rousseau)

4
Cả hai thợ săn đều không có chiến lược áp đảo
Hai cân bằng Nash: (Hươu, Hươu) và (Thỏ, Thỏ)
Mỗi cân bằng Nash là một cân bằng ổn định vì một khi các chiến lược đã được chọn
thì không có người nào tự ý muốn làm khác đi. Nhưng nếu không có thêm thông tin thì
chúng ta không biết cân bằng nào (hươu/hươu) hay (thỏ/thỏ) có xu hướng xảy ra – hoặc liệu
chúng có thể xảy ra hay không. Tất nhiên cả hai người đều có động cơ mạnh mẽ đạt đến
một trong hai cân bằng Nash nói trên – nếu hai người săn hai loại động vật khác nhau thì sẽ
có một người bị thiệt.
Tuy nhiên, hai người có thể hợp tác với nhau vì săn hươu đem lại lợi ích cho mỗi
người cao nhất nhưng đòi hỏi phải có lòng tin vào sự hợp tác của mỗi bên => Từ đó, chọn
tình huống cân bằng chung là: (hươu, hươu)
- Trò chơi không có cân bằng Nash (thuần túy)
Trong tất cả các trò chơi chúng ta vừa tìm hiểu, chúng ta xem xét các chiến lược, trong
đó những ng chơi thực hiện những sự lựa chọn cụ thể: quảng cáo, không quảng cáo; nhận
tội, không nhận tội …=> Chiến lược thuần túy. Tuy nhiên, có những trò chơi trong đó các
chiến lược thuần túy không phải là cách tối nhất để chơi.
- Chiến lược hỗn hợp (mixed strategies)
Chiến lược hỗn hợp là chiến lược trong đó người chơi thực hiện một sự lựa chọn
ngẫu nhiên giữa hai hoặc nhiều hành động có thể có, dựa trên một tập hợp xác suất

5
đã chọn.

Ma trận trò chơi Sấp-Ngửa

Giả định:
Mỗi người chọn 1 mặt sấp hoặc ngửa
Mở cùng lúc
Cùng mặt: người chơi 1 nhận được 1$ từ người chơi 2
Khác mặt: người chơi 2 nhận được 1$ từ người chơi 1
----------------------------
Giả sử, ng chơi 1 chọn để đồng xu ngửa, ng chơi 2 để đồng xu sấp => ng chơi 1 cx
muốn để đồng xu sấp. không cs kết hợp sấp hoặc ngửa nào lm cho cả hai ng cùng thỏa mãn
=> không ai trong họ muốn thay đổi chiến lược.
Không cs cân bằng Nash trong chiến lược tuần túy >< có trong chiến lược hỗn hợp.
Ví dụ, ng chơi 1 đơn giản tung đồng xu, xác suất mặt ngửa: 1/2, sấp: 1/2. Thực tế, ng chơi 1
và 2 theo chiến lược này sẽ có cân bằng Nash: cả 2 đều lm điều tốt nhất cho mình, cho
trước hành động đối thủ đag lm. Điều kiện, kết cục trò chơi là ngẫu nhiên, nhưng lợi ích kì
vọng là 0 cho mỗi người.
Ng chơi 1 qđ chiến lược khác vói tung đồng xu. Ví dụ, ng chơi 1 để cồng xu ngửa.
Nếu ng chơi 2 bt đc, người 2 để đồng xu sấp, ng 1 thua. Ngay cả khi ng 2 không bt chiến
lược của ng 1, nếu trò chơi lặp đi lặp lại, ng 2 nhận ra cách chơi ng 1 => chọn chiến lược
đối phó lại cách chơi đó. Tất nhiên, khi đó ng 1 cx muốn thay đổi chiến lược của mh. Đó là
lý do tại sao đây không phải là cân bằng Nash.

6
 Chỉ khi 2 ng cùng chọn ngửa hoặc sấp 1 cách ngẫu nhiên với xác suất 1/2 thì
không ai trong họ có động cơ thay đổi chiến lược của mình.
Một số trò chơi có cân bằng Nash cả trong chiến lược thuần túy và trong các chiến
lược hỗn hợp. Một ví dụ về “Cuộc chiến giới tính”. Nó như thế này: Ly và Minh là ng iu và
muốn ở bên nhau vào thứ bảy, nhưng lại thích cách giải trí khác nhau. Ly muốn xem phim
với Minh, Minh muốn xem đá bóng với Ly.

Cuộc chiến giới tính

Có hai cân bằng Nash. 1 là cân bằng Ly và Minh cùng đi xem phim, 2 là Ly và Minh
cùng đi xem đá bóng. Trong các kết cục này thì Ly thích cân bằng đầu tiên nhất, Minh thích
cân bằng thứ 2 >< cả 2 đều là cân bằng => Ly và Minh chẳng ai muốn thay đổi quyết định
của mình, khi cho trước quyết định của người kia.

Chiến lược hỗn hợp Ly Minh

Lợi ích kỳ vọng 2/3 2/3

Trò chơi này cũng có một cân bằng trong các chiến lược hỗn hợp.
Nhận xét:
 Đồng ý 1 trong 2 hình thức giải trí, mỗi người có lợi ích ít nhất là 1, cao hơn kết cục
kỳ vọng là 2/3 có được từ việc chọn ngẫu nhiên
 Các chiến lược hỗn hợp đưa ra một giải pháp khác, nhưng không xác thực lắm

7
- Chiến lược cực đại tối thiểu
- Chiến lược cực đại tối thiểu: Cực đại hóa cái lợi tối thiểu có thể thu được
Khái niệm cân bằng Nash dựa chủ yếu vào tính duy lý cá nhân. Sự lựa chọn
chiến lược của mỗi người chơi không chỉ phụ thuộc vào tính duy lý của họ mà còn
phụ thuộc vào tính duy lý của đối thủ. Đây có thể là một hạn chế như ví dụ dưới đây.

 Chơi “bên phải” là chiến lược áp đảo đối với ng chơi 2. Vì ng chơi 2 sẽ được lợi
hơn (thu được 2 chứ không phải là 0), bất kể chơi 1 lm gì đi nữa
 Ng chơi 1 dự kiến ng chơi 2 chơi chiến lược “bên phải”
 Ng chơi 1 đc lợi hơn khi chơi “bên dưới” (thu đc 3) chứ không phải chơi “bên trên”
(và thu được 2) => Kết cục (dưới, phải) là cân bằng Nash
 Với điều kiện, người chơi 1 biết ng chơi 2 hiểu rõ trò chơi và là người duy lý.
 Nếu người chơi 2 tình cờ bị lỗi và chơi “bên trái” thì người chơi 1 sẽ cực kỳ thiệt
hại.
 Nếu là người thận trọng, lo ngại người chơi 2 có thể không được thông tin đầy
đủ, hoặc không duy lý, ng chơi 1 chọn chơi “bên trên”
 Chắc chắn được 1, không có cơ hội mất 1000. Đó là chiến lược cực đại tối thiểu
(cực đại hóa cái lợi tối thiểu mà nó thu được).
 2 ng cùng dùng chiến lược cực đại tối thiểu => kết cục là: (trên, phải)
 Nếu ng 1 biết chắc ng 2 dùng chiến lược cực đại tối thiểu => ng 1 thích chơi “bên
dưới” hơn (thu được 3) thay vì chiến lược cực đại tối thiểu là chơi “bên trên”
Nhận xét:
 Chiến lược thận trọng
 Không phải là tối đa hóa lợi nhuận
 Các chiến lược áp đảo cũng là các chiến lược cực đại tối thiểu

8
THẾ LƯỠNG NAN CỦA NGƯỜI TÙ

Cân bằng Nash


Giải pháp cực đại tối thiểu
Cân bằng chiến lược áp đảo

Kết cục lý
----------------------------------------------------------------------------------------------------------
tưởng
Kết cục lý tưởng là cả hai không khai nhận, chỉ phải ở tù 2 năm >< khai nhận: chiesn
lược ưu thế/áp đảo của mỗi người tù => đem lại kết cục tốt hơn cho họ, không cần biết
chiến lược của người tù kia. Các chiến lược ưu thế cx là chiến lược cực đại tối thiểu.
 Kết cục: (thú tội, thú tội) vừa là cân bằng Nash, vừa là cân bằng chiến lược áp
đảo, vừa là giải pháp cực đại tối thiểu.

BÀI TẬP VẬN DỤNG

Điệp

Cưới Không cưới

Gặp 10, 20 25, 10


Lan
Không gặp 15, 30 5, 0

1. Chiến lược áp đảo của Điệp?


2. Lan sẽ chọn gặp hay không gặp?
3. Tìm cân bằng NASH?

9
TRẢ LỜ
1. Quy tắc dọc trước ngang sau
Dù Lan chọn GẶP hay KHÔNG GẶP thì Điệp vẫn sẽ chọn CƯỚI để đạt lợi ích tối đa (vì
20>10 và 30>0)
=> Điệp có chiến lược áp đảo là CƯỚI
2. Lan chọn KHÔNG GẶP
Vì:
+ Nếu Điệp chọn CƯỚI thì Lan nên chọn KHÔNG GẶP để đạt lợi ích tối đa (15 > 10)
+ Nếu Điệp chọn KHÔNG CƯỚI thì Lan nên chọn GẶP để đạt lợi ích tối đa (25 > 5)
=> Chiến lược của Lan không nằm trên cùng 1 hàng nên không có chiến lược áp đảo.
Vậy Lan sẽ chọn theo Điệp, bởi vì Lan đứng ở vai trò Điệp, Lan thấy rằng Điệp nên
chọn CƯỚI nên Lan sẽ chọn KHÔNG GẶP để mang lại lại ích tốt nhất cho Lan.
3. Cân bằng Nash: (không gặp, cưới)

10

You might also like