Chương 4

11/14/2021
CHƯƠNG 4
Cân bằng chiến lược
hỗn hợp
Trò chơi đồng xu

Hai người đồng thời cùng đưa ra mặt sấp hoặc ngửa của một
đồng xu. Nếu đưa ra cùng 1 mặt, người thứ 2 phải trả cho
người thứ nhất 1$; nếu 2 mặt khác nhau, người 1 trả người 2
1$.
Sấp Ngửa  trò chơi này

không có cân
Sấp 1*, -1 -1, 1*
bằng Nash tất
Ngửa -1, 1* 1*, -1 định
1
11/14/2021
Trò chơi đồng xu Sấp

(1/2)
Ngửa
(1/2)
Sấp (p) 1, -1 -1, 1
Ngửa (1-p) -1, 1 1, -1
Nếu NC2 chọn sấp hoặc ngửa với xs ½
Nếu NC1 chọn sấp với xs p thì kết quả (sấp, sấp) và (sấp ngửa) xảy ra
với xs ½(p)
Nếu NC1 chọn ngửa với xs (1-p) thì kết quả (ngửa, sấp) và (ngửa, ngửa)
xảy ra với xs ½(1-p)
• NC1 thắng 1$ với xs: ½(p)+½(1-p)= ½ với mọi p
• NC1 thua 1$ với xs: ½(p)+½(1-p)= ½ với mọi p
+ Lập luận tương tự đối với người chơi 1

(q)
Ngửa
(1-q)
Sấp (p) 1, -1 -1, 1
Có trường hợp nào người chơi chọn
sấp khác với ½ không? Ngửa (1-p) -1, 1 1, -1
1-2q>0=>q<1/2
2
11/14/2021
Hàm thưởng phạt kỳ vọng (Bernoulli)
Trò chơi chiến lược

với sự ưa thích von Neuman (vNM)
- Tập hợp các người chơi
- Đối với mỗi người chơi, có một tập các hành

động
- Đối với mỗi người chơi, sự ưa thích biểu diễn

bằng giá trị kỳ vọng của hàm thưởng phạt
(“Bernoulli”) trên hồ sơ hành động.
3
11/14/2021
BT106.2: Trò chơi chiến lược vNM

Xây dựng ma trận thưởng phạt khi
1) Mỗi người chơi không có sự thiên vị giữa tham gia buổi hòa
nhạc mà mình ít ưa thích cùng với người chơi khác và sự
ngẫu nhiên trong đó xs một người chơi đi đến một buổi hòa
nhạc trong khi người chơi thứ hai đi đến buổi hòa nhạc khác
là ½ và xs đi cùng đến một buổi hòa nhạc mà người chơi đó
thích hơn là ½.
B Thích S
u1(S,S)=1/2 *u1(B,S)+1/2*u1(B,B)
Thích B 2,1 0,0
u1(B,S)=0, u1(B,B)=2 → u1(S,S)=1 S 0,0 1,2

Xây dựng ma trận payoff khi
2) Mỗi NC không có sự thiên vị giữa đi đến buổi hòa nhạc ít thích

hơn cùng với người chơi khác và sự ngẫu nhiên trong đó người
chơi đó và người chơi khác đi đến hai buổi hòa nhạc khác nhau
với xác suất ¾, và cả hai cùng đi đến buổi hòa nhạc mà người đó
thích hơn với xác suất ¼.
B Thích S
Thích B
4
11/14/2021

Xây dựng ma trận payoff khi
2) Mỗi NC không có sự thiên vị giữa đi đến buổi hòa nhạc ít thích hơn cùng với
người chơi khác và sự ngẫu nhiên trong đó người chơi đó và người chơi khác
đi đến hai buổi hòa nhạc khác nhau với xác suất ¾, và cả hai cùng đi đến buổi
hòa nhạc mà người đó thích hơn với xác suất ¼.
u1(S,S)=3/4 *u1(B,S)+1/4*u1(B,B) (baì tập)
U1(B,S)=0,
B S
U1(B,B)=2
B 2,1/2 0,0
U1(S,S)=1/2
S 0,0 ½,2
Cân bằng Nash chiến lược hỗn hợp

ĐỊNH NGHĨA 107.1: Chiến lược hỗn hợp của một người chơi
trong trò chơi chiến lược là phân phối xác suất đối với các hành
động của người chơi
5
11/14/2021
Cân bằng Nash chiến lược hỗn hợp
Hàm đáp ứng tốt nhất
6
11/14/2021

(1/2)
Ngửa
(1/2)
Sấp (p) 1, -1 -1, 1
Ngửa (1-p) -1, 1 1, -1
Nếu NC2 chọn sấp hoặc ngửa với xs ½
Nếu NC1 chọn sấp với xs p thì kết quả (sấp, sấp) và (sấp ngửa) xảy ra
với xs ½(p)
Nếu NC1 chọn ngửa với xs (1-p) thì kết quả (ngửa, sấp) và (ngửa, ngửa)
xảy ra với xs ½(1-p)
• NC1 thắng 1$ với xs: ½(p)+½(1-p)= ½ với mọi p
• NC1 thua 1$ với xs: ½(p)+½(1-p)= ½ với mọi p
+ Lập luận tương tự đối với người chơi 1
Sấp Ngửa
Trò chơi đồng xu (q) (1-q)
Sấp (p) 1, -1 -1, 1
Ngửa (1-p) -1, 1 1, -1
Hàm ĐƯTN của mỗi NC đối với chiến lược hỗn hợp của
người chơi khác là chiến lược thuần đơn hoặc tập hợp các
chiến lược hỗn hợp:
+ Nếu chiến lược hỗn hợp của NC 2 gán xác suất nhỏ hơn
½ cho kết quả Sấp=>hàm ĐƯTN của NC1 là chiến lược
thuần Ngửa
+ Nếu chiến lược hỗn hợp của NC 2 chỉ định xác suất lớn
hơn ½ cho Sấp, thì hàm ĐƯTN của NC1 là chiến lược
thuần Sấp,
+ Nếu chiến lược hỗn hợp của người chơi 2 chỉ định xác
suất ½ cho Sấp, thì tất cả chiến lược hỗn hợp của người
chơi 1 là hàm đáp ứng tốt nhất).
7
11/14/2021
Phân tích Trò chơi 2 hành động
Phân tích Trò

chơi 2 hành động
8
11/14/2021
Phân tích Trò chơi 2 hành động
Với chiến lược hỗn hợp được

cho trước của người chơi 2,
9
11/14/2021
pE1 ( B, ( q,1  q ))  (1  p ) E1 ( S , ( q, (1  q ))  p (2q )  (1  p )(1  q )
B (q) S (1-q)
B (p) 2,0 0,0
S (1-p) 0,0 1,2
E1(B) E1(S)
q=1 2 0
q=1/2 1 ½
q=0 0 1
10
11/14/2021
- q=1 thì
p=1 là NC1 nên chọn B
- q=1/2 thì NC1 cũng

nên chọn p=1, chọn B
- q=0 thì p nên bằng 0,

nên chọn S
Sấp (q) Ngửa (1-q)
Sấp (p) 1, -1 -1, 1

Ngửa (1-p) -1, 1 1, -1
11
11/14/2021
Trò chơi đồng xu

NC1 chọn sấp NC1 chọn ngửa
(p=1): htp: 2q-1 (p=0): htp: 1-2q
NC1 chọn ngửa

(p=0): htp: 1-2q
NC1 chọn sấp (p=1):

htp: 2q-1
Cân bằng Nash hỗn
hợp:
((1/2,1/2),(1/2,1/2))
12
11/14/2021
Xem xét trò chơi Bach & Stravinsky
B (q) S (1-q)
B (p) 2, 1 0, 0
S (1-p) 0, 0 1, 2
Hàm thưởng phạt đối với NC1:

p(2q+0(1-q))+(1-p)(0q+1(1-q))=p(2q) +(1-p)(1-q)
q(1p+0(1-p))+(1-q)(0p+2(1-p)=q(p)+(1-q)2(1-p)
Tìm cân bằng Nash chiến lược hỗn hợp của trò chơi.

p(2q) +(1-p)(1-q). Nếu 2q>(1-q) =>q>1/3 thì p=1
q<1/3 thì p=0, và nếu q=1/3 thì với mọi p
q(p)+(1-q)2(1-p). Nếu p>2(1-p)=>p>2/3 thì q=1
Nếu p<2/3 thì q=0, nếu p=2/3 thì với mọi q
 2
0 neu p 
3

 2
B2  p   q : 0  p  1 neu p 
 3
 2
1 neu p 
 3
13
11/14/2021
Bài tập 111.2 Tìm các cân bằng Nash chiến lược
hỗn hơp bằng hàm đáp ứng tốt nhất
L (q) R (1-q)
T (p)
B (1-p)
Bài tập 111.2 Tìm các cân bằng Nash chiến lược
hỗn hơp bằng hàm đáp ứng tốt nhất
L (q) R (1-q)
T (p) 6,0 0,6

B (1-p) 3,2 6,0
14
11/14/2021
Tìm cân bằng Nash chiến lược hỗn hợp
Giám sát (q) Không giám sát

(1-q)
Làm việc (p) 50, 90 50, 100
Trốn việc (1-p) 0,-10 100,-100
1) Điều gì xảy ra nếu công nghệ cải tiến làm chi phí giám sát giảm đi?
2) Điều gì xảy ra nếu việc chi phí sức lao động của công nhân lớn hơn $50?
15
11/14/2021
Giám sát (q) Không giám sát

(1-q)
Làm việc (p) 50, 90 50, 100
Trốn việc (1-p) 0,-10 100,-100
HTP của công nhân: p(50q+50(1-q))+(1-p)(0q+100(1-q)

 p(50)+(1-p)(100-100q)
Nếu 50>100-100q=>q>1/2 thì p=1, nếu q<1/2 thì chọn p=0, nếu q=1/2 thì
với mọi p
HTP của người quản lý: q(90p-10(1-p))+ (1-q)(100p-100(1-p))

=>q(100p-10)+(1-q)(200p-100)
Nếu 100p-10>200p-100=>p<9/10 thì q=1, nếu p>9/10 thì q=0,
nếu p=9/10 thì với mọi q
Cân bằng Nash hỗn hợp: (9/10,1/10),(1/2,1/2)
1) Điều gì xảy ra nếu công nghệ cải tiến làm chi phí giám sát giảm đi?
2) Điều gì xảy ra nếu việc chi phí sức lao động của công nhân lớn hơn $50?
Đặc điểm hữu dụng của cân bằng

Nash hỗn hợp
Trò chơi đơn giản: sử dụng hàm đáp ứng tốt

nhất để tìm các cân bằng Nash chiến lược
hỗn hợp
Đối với trò chơi phức tạp: cần phương pháp

tổng quát.
16
11/14/2021
Đặc điểm hữu dụng của cân bằng

Nash hỗn hợp
Trò chơi 2 hành

động T, B
17
11/14/2021
18
11/14/2021
ĐỊNH LÝ 119.1 (Sự tồn tại của cân bằng

Nash chiến lược hỗn hợp trong các trò
chơi xác định)
Mọi trò chơi chiến lược với sự ưa thích vNM mà

trong đó mỗi người chơi có số lượng hành động
xác định đều có cân bằng Nash chiến lược hỗn
hợp.
19
11/14/2021
Hành động bị thống trị
20
11/14/2021
Ví dụ: Hành động L của NC2 bị

thống trị chặt chẽ bởi chiến lược
hỗn hợp gán xác suất ¼ cho M
và ¾ cho R, vì thế ta bỏ qua
hành động L, NC2 chỉ còn hành
động M, R.
Cân bằng Nash:
Thống trị yếu

ĐỊNH NGHĨA 121.1 (Thống trị yếu) Trong trò chơi chiến lược với sự ưa thích vNM, chiến
lược hỗn hợp i của người chơi i thống trị yếu hành động ai nếu
Ui i ,ai   ui  ai,ai  với mọi danh sách ai hành động của các người chơi khác
và
Ui i ,ai   ui  ai,ai  với một vài danh sách ai hành động của các người chơi khác
Với ui là hàm thưởng phạt của giá trị kỳ vọng biểu diễn sự ưa thích của người chơi i đối với
sự ngẫu nhiên và Ui i ,ai  là hàm thưởng phạt kỳ vọng của người chơi i theo ui khi người
chơi sử dụng chiến lược hỗn hợp i và hành động được chọn bởi những người chơi khác là
ai . Ta nói là hành động ai bị thống trị yếu.
21
11/14/2021
ĐỊNH LÝ 122.1
(Sự tồn tại của cân bằng Nash chiến lược hỗn
hợp khi không có chiến lược bị thống trị yếu
trong trò chơi xác định)
Mọi trò chơi chiến lược với sự ưa thích vNM trong đó

mỗi người chơi có số lượng hành động xác định, sẽ
có một cân bằng Nash chiến lược hỗn hợp trong đó
không có chiến lược của người chơi nào bị thống trị
yếu.
Ví dụ: chuẩn đoán của chuyên gia
22
11/14/2021
Ví dụ: chuẩn đoán của chuyên gia
Hàm đáp ứng tốt nhất của chuyên gia
23
11/14/2021
Hàm đáp ứng tốt nhất của khách hàng
24
11/14/2021
Mở rộng: Tìm tất cả các cân bằng Nash

chiến lược hỗn hợp
NC1: Tập hồ sơ hành động (B,L,R) có 7 tập con là:

(B),(L),(R),(B,L),(B,R),(L,R),(B,L,R)
NC2: Tập hồ sơ hành động (K,Z) có 3 tập con là: (K), (Z), (K,Z)
25
11/14/2021
L R
T
B
Ví dụ 139.2
Tìm tất cả các cân bằng chiến lược hỗn hợp của trò chơi
biến thể của trò chơi BoS
26
11/14/2021
Ví dụ 139.2 B S X
B 4, 2 0, 0 0, 1
S 0, 0 2, 4 1, 3
NC1: (B), (S), (B,S)
NC2: (B), (S), (X), (B,S), (B,X), (S,X), (B,S,X)
- Xét NC1 chọn chiến lược thuần B thì hàm thưởng phạt của người chơi 2 khi gán xác
suất dương đối với 2 hoặc nhiều hơn hành động của mình (2,0,1) là khác nhau, vì thế
điều kiện đầu tiên trong Định lý 116.2 không thỏa.
Ví dụ xét ((B),(B,S)) thì 2 = 0 > 1 (không thỏa)
- Tương tự loại bỏ các trường hợp NC1 chọn thuần S và trường hợp ngược lại, NC2
chọn lần lượt các chiến lược thuần B,S,X và NC1 chọn chiến lược gán xác suất dương
đối với cả 2 hành động.
- Xét ((B,S),(B,S))
NC2: 2p = 4(1-p) > 1p + 3(1-p): Không thỏa → Loại
- Xét ((B,S), (B,X)
NC2: 2p = 1p + 3(1-p) > 4(1-p) → p = ¾ và thỏa bất phương trình (3/2>1)
NC1: 4q = 1(1-q) → q = 1/5 → CB Nash ((3/4,1/4)(1/5,0,4/5))
Ví dụ 139.2 B S X
B 4, 2 0, 0 0, 1
S 0, 0 2, 4 1, 3
NC1: (B), (S), (B,S)
NC2: (B), (S), (X), (B,S), (B,X), (S,X), (B,S,X)
- Xét ((B,S),(S,X))
NC1: Hành động B bị thống trị chặt chẽ bởi hành động S → Không là CB Nash
- Xét ((B,S), (B,S,X))
NC2: 2p = 4(1-p) = 1p + 3(1-p) → vô nghiệm
Trò chơi có 3 cân bằng chiến lược hỗn hợp:

((B,B)) = ((1,0)(1,0,0)
((S,S)) = ((0,1)(0,1,0))
((B,S)(B,X)) = ((3/4,1/4)(1/5,0,4/5))
27

Chương 4

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Chương 4

Uploaded by

Copyright:

Available Formats

11/14/2021

Trò chơi đồng xu

Sấp Ngửa  trò chơi này

Trò chơi đồng xu Sấp

• NC1 thắng 1$ với xs: ½(p)+½(1-p)= ½ với mọi p

• NC1 thua 1$ với xs: ½(p)+½(1-p)= ½ với mọi p

+ Lập luận tương tự đối với người chơi 1

Trò chơi đồng xu Sấp

Hàm thưởng phạt kỳ vọng (Bernoulli)

Trò chơi chiến lược

- Tập hợp các người chơi

- Đối với mỗi người chơi, có một tập các hành

- Đối với mỗi người chơi, sự ưa thích biểu diễn

BT106.2: Trò chơi chiến lược vNM

BT106.2: Trò chơi chiến lược vNM

2) Mỗi NC không có sự thiên vị giữa đi đến buổi hòa nhạc ít thích

BT106.2: Trò chơi chiến lược vNM

u1(S,S)=3/4 *u1(B,S)+1/4*u1(B,B) (baì tập)

Cân bằng Nash chiến lược hỗn hợp

Cân bằng Nash chiến lược hỗn hợp

Hàm đáp ứng tốt nhất

Trò chơi đồng xu Sấp

• NC1 thắng 1$ với xs: ½(p)+½(1-p)= ½ với mọi p

• NC1 thua 1$ với xs: ½(p)+½(1-p)= ½ với mọi p

+ Lập luận tương tự đối với người chơi 1

Phân tích Trò chơi 2 hành động

Phân tích Trò

Phân tích Trò chơi 2 hành động

Với chiến lược hỗn hợp được

pE1 ( B, ( q,1  q ))  (1  p ) E1 ( S , ( q, (1  q ))  p (2q )  (1  p )(1  q )

p=1 là NC1 nên chọn B

- q=1/2 thì NC1 cũng

- q=0 thì p nên bằng 0,

Sấp (q) Ngửa (1-q)

Sấp (p) 1, -1 -1, 1

Trò chơi đồng xu

NC1 chọn ngửa

NC1 chọn sấp (p=1):

Xem xét trò chơi Bach & Stravinsky

Hàm thưởng phạt đối với NC1:

Hàm thưởng phạt đối với NC1:

T (p) 6,0 0,6

Tìm cân bằng Nash chiến lược hỗn hợp

Giám sát (q) Không giám sát

Giám sát (q) Không giám sát

HTP của công nhân: p(50q+50(1-q))+(1-p)(0q+100(1-q)

HTP của người quản lý: q(90p-10(1-p))+ (1-q)(100p-100(1-p))

Đặc điểm hữu dụng của cân bằng

Trò chơi đơn giản: sử dụng hàm đáp ứng tốt

Đối với trò chơi phức tạp: cần phương pháp

Đặc điểm hữu dụng của cân bằng

Trò chơi 2 hành

ĐỊNH LÝ 119.1 (Sự tồn tại của cân bằng

Mọi trò chơi chiến lược với sự ưa thích vNM mà

Hành động bị thống trị

Ví dụ: Hành động L của NC2 bị

Thống trị yếu

Mọi trò chơi chiến lược với sự ưa thích vNM trong đó

Ví dụ: chuẩn đoán của chuyên gia

Ví dụ: chuẩn đoán của chuyên gia

Hàm đáp ứng tốt nhất của chuyên gia

Hàm đáp ứng tốt nhất của khách hàng

Mở rộng: Tìm tất cả các cân bằng Nash

NC1: Tập hồ sơ hành động (B,L,R) có 7 tập con là:

u1(S,S)=3/4 u1(B,S)+1/4u1(B,B) (baì tập)