Download as pdf or txt
Download as pdf or txt
You are on page 1of 27

11/14/2021

CHƯƠNG 4
Cân bằng chiến lược
hỗn hợp

Trò chơi đồng xu


Hai người đồng thời cùng đưa ra mặt sấp hoặc ngửa của một
đồng xu. Nếu đưa ra cùng 1 mặt, người thứ 2 phải trả cho
người thứ nhất 1$; nếu 2 mặt khác nhau, người 1 trả người 2
1$.

Sấp Ngửa  trò chơi này


không có cân
Sấp 1*, -1 -1, 1*
bằng Nash tất
Ngửa -1, 1* 1*, -1 định

1
11/14/2021

Trò chơi đồng xu Sấp


(1/2)
Ngửa
(1/2)
Sấp (p) 1, -1 -1, 1
Ngửa (1-p) -1, 1 1, -1
Nếu NC2 chọn sấp hoặc ngửa với xs ½

Nếu NC1 chọn sấp với xs p thì kết quả (sấp, sấp) và (sấp ngửa) xảy ra
với xs ½(p)

Nếu NC1 chọn ngửa với xs (1-p) thì kết quả (ngửa, sấp) và (ngửa, ngửa)
xảy ra với xs ½(1-p)

• NC1 thắng 1$ với xs: ½(p)+½(1-p)= ½ với mọi p

• NC1 thua 1$ với xs: ½(p)+½(1-p)= ½ với mọi p

+ Lập luận tương tự đối với người chơi 1

Trò chơi đồng xu Sấp


(q)
Ngửa
(1-q)
Sấp (p) 1, -1 -1, 1
Có trường hợp nào người chơi chọn
sấp khác với ½ không? Ngửa (1-p) -1, 1 1, -1

1-2q>0=>q<1/2

2
11/14/2021

Hàm thưởng phạt kỳ vọng (Bernoulli)

Trò chơi chiến lược


với sự ưa thích von Neuman (vNM)

- Tập hợp các người chơi

- Đối với mỗi người chơi, có một tập các hành


động

- Đối với mỗi người chơi, sự ưa thích biểu diễn


bằng giá trị kỳ vọng của hàm thưởng phạt
(“Bernoulli”) trên hồ sơ hành động.

3
11/14/2021

BT106.2: Trò chơi chiến lược vNM


Xây dựng ma trận thưởng phạt khi

1) Mỗi người chơi không có sự thiên vị giữa tham gia buổi hòa
nhạc mà mình ít ưa thích cùng với người chơi khác và sự
ngẫu nhiên trong đó xs một người chơi đi đến một buổi hòa
nhạc trong khi người chơi thứ hai đi đến buổi hòa nhạc khác
là ½ và xs đi cùng đến một buổi hòa nhạc mà người chơi đó
thích hơn là ½.
B Thích S
u1(S,S)=1/2 *u1(B,S)+1/2*u1(B,B)
Thích B 2,1 0,0
u1(B,S)=0, u1(B,B)=2 → u1(S,S)=1 S 0,0 1,2

BT106.2: Trò chơi chiến lược vNM


Xây dựng ma trận payoff khi

2) Mỗi NC không có sự thiên vị giữa đi đến buổi hòa nhạc ít thích


hơn cùng với người chơi khác và sự ngẫu nhiên trong đó người
chơi đó và người chơi khác đi đến hai buổi hòa nhạc khác nhau
với xác suất ¾, và cả hai cùng đi đến buổi hòa nhạc mà người đó
thích hơn với xác suất ¼.
B Thích S
Thích B

4
11/14/2021

BT106.2: Trò chơi chiến lược vNM


Xây dựng ma trận payoff khi
2) Mỗi NC không có sự thiên vị giữa đi đến buổi hòa nhạc ít thích hơn cùng với
người chơi khác và sự ngẫu nhiên trong đó người chơi đó và người chơi khác
đi đến hai buổi hòa nhạc khác nhau với xác suất ¾, và cả hai cùng đi đến buổi
hòa nhạc mà người đó thích hơn với xác suất ¼.

u1(S,S)=3/4 *u1(B,S)+1/4*u1(B,B) (baì tập)

U1(B,S)=0,
B S
U1(B,B)=2
B 2,1/2 0,0
U1(S,S)=1/2
S 0,0 ½,2

Cân bằng Nash chiến lược hỗn hợp


ĐỊNH NGHĨA 107.1: Chiến lược hỗn hợp của một người chơi
trong trò chơi chiến lược là phân phối xác suất đối với các hành
động của người chơi

5
11/14/2021

Cân bằng Nash chiến lược hỗn hợp

Hàm đáp ứng tốt nhất

6
11/14/2021

Trò chơi đồng xu Sấp


(1/2)
Ngửa
(1/2)
Sấp (p) 1, -1 -1, 1
Ngửa (1-p) -1, 1 1, -1
Nếu NC2 chọn sấp hoặc ngửa với xs ½

Nếu NC1 chọn sấp với xs p thì kết quả (sấp, sấp) và (sấp ngửa) xảy ra
với xs ½(p)

Nếu NC1 chọn ngửa với xs (1-p) thì kết quả (ngửa, sấp) và (ngửa, ngửa)
xảy ra với xs ½(1-p)

• NC1 thắng 1$ với xs: ½(p)+½(1-p)= ½ với mọi p

• NC1 thua 1$ với xs: ½(p)+½(1-p)= ½ với mọi p

+ Lập luận tương tự đối với người chơi 1

Sấp Ngửa
Trò chơi đồng xu (q) (1-q)
Sấp (p) 1, -1 -1, 1
Ngửa (1-p) -1, 1 1, -1

Hàm ĐƯTN của mỗi NC đối với chiến lược hỗn hợp của
người chơi khác là chiến lược thuần đơn hoặc tập hợp các
chiến lược hỗn hợp:
+ Nếu chiến lược hỗn hợp của NC 2 gán xác suất nhỏ hơn
½ cho kết quả Sấp=>hàm ĐƯTN của NC1 là chiến lược
thuần Ngửa
+ Nếu chiến lược hỗn hợp của NC 2 chỉ định xác suất lớn
hơn ½ cho Sấp, thì hàm ĐƯTN của NC1 là chiến lược
thuần Sấp,
+ Nếu chiến lược hỗn hợp của người chơi 2 chỉ định xác
suất ½ cho Sấp, thì tất cả chiến lược hỗn hợp của người
chơi 1 là hàm đáp ứng tốt nhất).

7
11/14/2021

Phân tích Trò chơi 2 hành động

Phân tích Trò


chơi 2 hành động

8
11/14/2021

Phân tích Trò chơi 2 hành động

Với chiến lược hỗn hợp được


cho trước của người chơi 2,

9
11/14/2021

pE1 ( B, ( q,1  q ))  (1  p ) E1 ( S , ( q, (1  q ))  p (2q )  (1  p )(1  q )

B (q) S (1-q)
B (p) 2,0 0,0
S (1-p) 0,0 1,2
E1(B) E1(S)
q=1 2 0
q=1/2 1 ½
q=0 0 1

10
11/14/2021

- q=1 thì

p=1 là NC1 nên chọn B

- q=1/2 thì NC1 cũng


nên chọn p=1, chọn B

- q=0 thì p nên bằng 0,


nên chọn S

Sấp (q) Ngửa (1-q)

Sấp (p) 1, -1 -1, 1


Ngửa (1-p) -1, 1 1, -1

11
11/14/2021

Trò chơi đồng xu


NC1 chọn sấp NC1 chọn ngửa
(p=1): htp: 2q-1 (p=0): htp: 1-2q

NC1 chọn ngửa


(p=0): htp: 1-2q

NC1 chọn sấp (p=1):


htp: 2q-1
Cân bằng Nash hỗn
hợp:
((1/2,1/2),(1/2,1/2))

12
11/14/2021

Xem xét trò chơi Bach & Stravinsky

B (q) S (1-q)

B (p) 2, 1 0, 0
S (1-p) 0, 0 1, 2

Hàm thưởng phạt đối với NC1:


p(2q+0(1-q))+(1-p)(0q+1(1-q))=p(2q) +(1-p)(1-q)
Hàm thưởng phạt đối với NC2:
q(1p+0(1-p))+(1-q)(0p+2(1-p)=q(p)+(1-q)2(1-p)
Tìm cân bằng Nash chiến lược hỗn hợp của trò chơi.

Hàm thưởng phạt đối với NC1:


p(2q) +(1-p)(1-q). Nếu 2q>(1-q) =>q>1/3 thì p=1
q<1/3 thì p=0, và nếu q=1/3 thì với mọi p
Hàm thưởng phạt đối với NC2:
q(p)+(1-q)2(1-p). Nếu p>2(1-p)=>p>2/3 thì q=1
Nếu p<2/3 thì q=0, nếu p=2/3 thì với mọi q

 2
0 neu p 
3

 2
B2  p   q : 0  p  1 neu p 
 3
 2
1 neu p 
 3

13
11/14/2021

Bài tập 111.2 Tìm các cân bằng Nash chiến lược
hỗn hơp bằng hàm đáp ứng tốt nhất

L (q) R (1-q)

T (p)
B (1-p)

Bài tập 111.2 Tìm các cân bằng Nash chiến lược
hỗn hơp bằng hàm đáp ứng tốt nhất

L (q) R (1-q)

T (p) 6,0 0,6


B (1-p) 3,2 6,0

14
11/14/2021

Tìm cân bằng Nash chiến lược hỗn hợp

Giám sát (q) Không giám sát


(1-q)
Làm việc (p) 50, 90 50, 100
Trốn việc (1-p) 0,-10 100,-100

1) Điều gì xảy ra nếu công nghệ cải tiến làm chi phí giám sát giảm đi?
2) Điều gì xảy ra nếu việc chi phí sức lao động của công nhân lớn hơn $50?

15
11/14/2021

Giám sát (q) Không giám sát


(1-q)
Làm việc (p) 50, 90 50, 100
Trốn việc (1-p) 0,-10 100,-100

HTP của công nhân: p(50q+50(1-q))+(1-p)(0q+100(1-q)


 p(50)+(1-p)(100-100q)
Nếu 50>100-100q=>q>1/2 thì p=1, nếu q<1/2 thì chọn p=0, nếu q=1/2 thì
với mọi p

HTP của người quản lý: q(90p-10(1-p))+ (1-q)(100p-100(1-p))


=>q(100p-10)+(1-q)(200p-100)
Nếu 100p-10>200p-100=>p<9/10 thì q=1, nếu p>9/10 thì q=0,
nếu p=9/10 thì với mọi q
Cân bằng Nash hỗn hợp: (9/10,1/10),(1/2,1/2)

1) Điều gì xảy ra nếu công nghệ cải tiến làm chi phí giám sát giảm đi?
2) Điều gì xảy ra nếu việc chi phí sức lao động của công nhân lớn hơn $50?

Đặc điểm hữu dụng của cân bằng


Nash hỗn hợp

Trò chơi đơn giản: sử dụng hàm đáp ứng tốt


nhất để tìm các cân bằng Nash chiến lược
hỗn hợp

Đối với trò chơi phức tạp: cần phương pháp


tổng quát.

16
11/14/2021

Đặc điểm hữu dụng của cân bằng


Nash hỗn hợp

Trò chơi 2 hành


động T, B

17
11/14/2021

18
11/14/2021

ĐỊNH LÝ 119.1 (Sự tồn tại của cân bằng


Nash chiến lược hỗn hợp trong các trò
chơi xác định)

Mọi trò chơi chiến lược với sự ưa thích vNM mà


trong đó mỗi người chơi có số lượng hành động
xác định đều có cân bằng Nash chiến lược hỗn
hợp.

19
11/14/2021

Hành động bị thống trị

20
11/14/2021

Ví dụ: Hành động L của NC2 bị


thống trị chặt chẽ bởi chiến lược
hỗn hợp gán xác suất ¼ cho M
và ¾ cho R, vì thế ta bỏ qua
hành động L, NC2 chỉ còn hành
động M, R.
Cân bằng Nash:

Thống trị yếu


ĐỊNH NGHĨA 121.1 (Thống trị yếu) Trong trò chơi chiến lược với sự ưa thích vNM, chiến
lược hỗn hợp i của người chơi i thống trị yếu hành động ai nếu
Ui i ,ai   ui  ai,ai  với mọi danh sách ai hành động của các người chơi khác

Ui i ,ai   ui  ai,ai  với một vài danh sách ai hành động của các người chơi khác
Với ui là hàm thưởng phạt của giá trị kỳ vọng biểu diễn sự ưa thích của người chơi i đối với
sự ngẫu nhiên và Ui i ,ai  là hàm thưởng phạt kỳ vọng của người chơi i theo ui khi người
chơi sử dụng chiến lược hỗn hợp i và hành động được chọn bởi những người chơi khác là
ai . Ta nói là hành động ai bị thống trị yếu.

21
11/14/2021

ĐỊNH LÝ 122.1
(Sự tồn tại của cân bằng Nash chiến lược hỗn
hợp khi không có chiến lược bị thống trị yếu
trong trò chơi xác định)

Mọi trò chơi chiến lược với sự ưa thích vNM trong đó


mỗi người chơi có số lượng hành động xác định, sẽ
có một cân bằng Nash chiến lược hỗn hợp trong đó
không có chiến lược của người chơi nào bị thống trị
yếu.

Ví dụ: chuẩn đoán của chuyên gia

22
11/14/2021

Ví dụ: chuẩn đoán của chuyên gia

Hàm đáp ứng tốt nhất của chuyên gia

23
11/14/2021

Hàm đáp ứng tốt nhất của khách hàng

24
11/14/2021

Mở rộng: Tìm tất cả các cân bằng Nash


chiến lược hỗn hợp

NC1: Tập hồ sơ hành động (B,L,R) có 7 tập con là:


(B),(L),(R),(B,L),(B,R),(L,R),(B,L,R)
NC2: Tập hồ sơ hành động (K,Z) có 3 tập con là: (K), (Z), (K,Z)

25
11/14/2021

L R
T
B

Ví dụ 139.2

Tìm tất cả các cân bằng chiến lược hỗn hợp của trò chơi
biến thể của trò chơi BoS

26
11/14/2021

Ví dụ 139.2 B S X
B 4, 2 0, 0 0, 1
S 0, 0 2, 4 1, 3
NC1: (B), (S), (B,S)
NC2: (B), (S), (X), (B,S), (B,X), (S,X), (B,S,X)
- Xét NC1 chọn chiến lược thuần B thì hàm thưởng phạt của người chơi 2 khi gán xác
suất dương đối với 2 hoặc nhiều hơn hành động của mình (2,0,1) là khác nhau, vì thế
điều kiện đầu tiên trong Định lý 116.2 không thỏa.
Ví dụ xét ((B),(B,S)) thì 2 = 0 > 1 (không thỏa)
- Tương tự loại bỏ các trường hợp NC1 chọn thuần S và trường hợp ngược lại, NC2
chọn lần lượt các chiến lược thuần B,S,X và NC1 chọn chiến lược gán xác suất dương
đối với cả 2 hành động.
- Xét ((B,S),(B,S))
NC2: 2p = 4(1-p) > 1p + 3(1-p): Không thỏa → Loại
- Xét ((B,S), (B,X)
NC2: 2p = 1p + 3(1-p) > 4(1-p) → p = ¾ và thỏa bất phương trình (3/2>1)
NC1: 4q = 1(1-q) → q = 1/5 → CB Nash ((3/4,1/4)(1/5,0,4/5))

Ví dụ 139.2 B S X
B 4, 2 0, 0 0, 1
S 0, 0 2, 4 1, 3
NC1: (B), (S), (B,S)
NC2: (B), (S), (X), (B,S), (B,X), (S,X), (B,S,X)
- Xét ((B,S),(S,X))
NC1: Hành động B bị thống trị chặt chẽ bởi hành động S → Không là CB Nash
- Xét ((B,S), (B,S,X))
NC2: 2p = 4(1-p) = 1p + 3(1-p) → vô nghiệm

Trò chơi có 3 cân bằng chiến lược hỗn hợp:


((B,B)) = ((1,0)(1,0,0)
((S,S)) = ((0,1)(0,1,0))
((B,S)(B,X)) = ((3/4,1/4)(1/5,0,4/5))

27

You might also like