Game Theory 2

You might also like

Download as doc, pdf, or txt
Download as doc, pdf, or txt
You are on page 1of 24

博 弈 论

2、 可口可乐与百事可乐(参与者)的价格决策:双方都可以保持价格不变或者提高价格(策略);博弈
的目标和得失情况体现为利润的多少(收益); 利润的大小取决于双方的策略组合(收益函数); 博弈
有四种策略组合,其结局是:
(1)如果双方都不涨价,各得利润 10 单位;
(2)如果可口可乐不涨价,百事可乐涨价,可口可乐利润 100,百事可乐利润-30;
(3)如果可口可乐涨价,百事可乐不涨价,可口可乐利润-20,百事可乐利润 30;
(4)如果双方都涨价,可口可乐利润 140,百事可乐利润 35;

求纳什均衡。
博弈的稳定状态有两个:都不涨价或者都涨价(均衡),均衡称为博弈的解。

3、猪圈里有一头大猪和一头小猪,猪圈的一头有一个饲料槽,另一头装有控制饲料供应的按钮。按一下按
钮就会有 10 个单位饲料进槽,但谁按谁就要付出 2 个单位的成本。谁去按按纽则谁后到;都去按则同时到
若大猪先到,大猪吃到 9 个单位,小猪吃到一个单位;若同时到,大猪吃 7 个单位,小猪吃 3 个单位;若
小猪先到,大猪吃六个单位,小猪吃 4 个单位。各种情况组合扣除成本后的支付矩阵可如下表示(每格第
一个数字是大猪的得益,第二个数字是小猪的得益):

        小猪
      按    等待
大猪  按 5,1   4,4
   等待 9,-1   0,0

求纳什均衡。  

在这个例子中,我们可以发现,大猪选择按,小猪最好选择等待,大猪选择不按,小猪还是最好选择等待。
即不管大猪选择按还是不按,小猪的最佳策略都是等待。也就是说,无论如何,小猪都只会选择等待。这
样的情况下,大猪最好选择是按,因为不按的话都饿肚子,按的话还可以有 4 个单位的收益。所以纳什均
衡是(大猪按,小猪等待)。

4、根据两人博弈的支付矩阵回答问题:
a b
A 2,3 0,0
B 0,0 4,2
(1) 写出两人各自的全部策略,并用等价的博弈树来重新表示这个博弈(6 分)
(2) 找出该博弈的全部纯策略纳什均衡,并判断均衡的结果是否是 Pareto 有效。
(3) 求出该博弈的混合策略纳什均衡。(7 分)
(1)策略
甲:A B
乙:a b
博弈树 (草图如下:

1
(2)Pure NE (A, a); (B, b)
都是 Pareto 有效,仅(B, b)是K-H有效。
(3)Mixed NE ((2/5, 3/5); (2/3, 1/3))

5、用反应函数法求出下列博弈的所有纯战略纳什均衡。

参与人 2

a b c d

A 2,3 3,2 3,4 0,3

参与人 1 B 4,4 5,2 0,1 1,2

C 3,1 4,1 1,4 10,2

D 3,1 4,1 -1,2 10,1

解答:

纯策略纳什均衡为(B,a)与(A,c)

分析过程:设两个参与人的行动分别为 ,

player1 的反应函数

player2 的反应函数

交点为(B,a)与(A,c),因此纯策略纳什均衡为(B,a)与(A,c)。

6、(entry deterrence 市场威慑)考虑下面一个动态博弈:首先,在一个市场上潜在的进入者选择是否


进入,然后市场上的已有企业(在位者)选择是否与新企业展开竞争。在位者可能有两种类型,温柔型
(左图)和残酷型(右图),回答下面问题。 

2
.
( 20 , 3 ( 10 , 2
默许 0) 默许 0)
在位者 在位者

进入 进入
斗争 ( -10 , 斗争 ( -10 , 2
进入者 0) 进入者 5)
不进入 不进入
(0,100) (0,100)

左图:温柔型 右图:残酷型

(1) 找出给定在位者的两种类型所分别对应的纳什均衡,以及子博弈精炼纳什均衡(12 分)
(2) 已有企业为温柔型的概率至少多少时,新企业才愿意进入(8 分)
(1) 温柔 NE (in, accommodate) 和 (out, fight)。 SPNE 为(in, accommodate)
残酷 NE (out, fight). SPNE 同理

(2)  

8、博弈方 1 和博弈方 2 就如何分 10,000 元钱进行讨价还价。假设确定了以下规则:双方同时提出自己


要求的数额 A 和 B,0≤A,B≤10,000。如果 A+B≤10,000,则两博弈方的要求得到满足,即分别得 A
和 B,但如果 A+B>10,000,则该笔钱就没收。问该博弈的纳什均衡是什么?如果你是其中一个博弈方,
你会选择什么数额?为什么?
答十、纳什均衡有无数个。最可能的结果是(5000,5000)这个聚点均衡。

9、北方航空公司和新华航空公司分享了从北京到南方冬天度假胜地的市场。如果它们合作,各获得 500000
元的垄断利润,但不受限制的竞争会使每一方的利润降至 60000 元。如果一方在价格决策方面选择合作而
另一方却选择降低价格,则合作的厂商获利将为零,竞争厂商将获利 900000 元。
(1)将这一市场用囚徒困境的博弈加以表示。
(2)解释为什么均衡结果可能是两家公司都选择竞争性策略。
答:(1)用囚徒困境的博弈表示如下表:

北方航空公司
合作 竞争
合作 500000,500000 0,900000
新华航空公司
竞争 900000,0 60000,60000

(2)如果新华航空公司选择竞争,则北方航空公司也会选择竞争(60000>0);若新华航空公司选择
合作,北方航空公司仍会选择竞争(900000>500000)。若北方航空公司选择竞争,新华航空公司也将选择
竞争(60000>0);若北方航空公司选择合作,新华航空公司仍会选择竞争(900000>0)。由于双方总偏好
竞争,故均衡结果为两家公司都选择竞争性策略,每一家公司所获利润均为 600000 元。

12、设啤酒市场上有两家厂商,各自选择是生产高价啤酒还是低价啤酒,相应的利润(单位:
万元)由下图的得益矩阵给出:

3
(1)有哪些结果是纳什均衡?
(2)两厂商合作的结果是什么?
答(1)(低价,高价),(高价,低价)
(2)(低价,高价)

13、A、B 两企业利用广告进行竞争。若 A、B 两企业都做广告,在未来销售中,A 企业可以获得 20 万元利润,


B 企业可获得 8 万元利润;若 A 企业做广告,B 企业不做广告,A 企业可获得 25 万元利润,B 企业可获得 2
万元利润;若 A 企业不做广告,B 企业做广告,A 企业可获得 10 万元利润,B 企业可获得 12 万元利润;若
A、B 两企业都不做广告,A 企业可获得 30 万元利润,B 企业可获得 6 万元利润。
(1)画出 A、B 两企业的支付矩阵。
(2)求纳什均衡。
3. 答:(1)由题目中所提供的信息,可画出 A、B 两企业的支付矩阵(如下表)。

B 企业
做广告 不做广告
做广告 20,8 25,2
A 企业
不做广告 10,12 30,6

(2)因为这是一个简单的完全信息静态博弈,对于纯策纳什均衡解可运用划横线法求解。
如果 A 厂商做广告,则 B 厂商的最优选择是做广告,因为做广告所获得的利润 8 大于不做广告获得的
利润 2,故在 8 下面划一横线。如果 A 厂商不做广告,则 B 厂商的最优选择也是做广告,因为做广告获得的
利润为 12,而不做广告的利润为 6,故在 12 下面划一横线。
如果 B 厂商做广告,则 A 厂商的最优选择是做广告,因为做广告获得的利润 20 大于不做广告所获得
的利润 10,故在 20 下面划一横线。如果 B 厂商不做广告,A 厂商的最优选择是不做广告,因为不做广告获
得的利润 30 大于做广告所获得的利润 25,故在 30 下面划一横线。
在本题中不存在混合策略的纳什均衡解,因此,最终的纯策略纳什均衡就是 A、B 两厂商都做广告。

15、求出下面博弈的纳什均衡(含纯策略和混合策略)。

L R
U 5,0 0,8

D 2,6 4,5
由划线法易知,该矩阵博弈没有纯策略 Nash 均衡。
可得如下不等式组
Q=a+d-b-c=7,q=d-b=4,R=0+5-8-6=-9,r=-1

4
可得混合策略 Nash 均衡(( ),( )

16、 某产品市场上有两个厂商,各自都可以选择高质量,还是低质量。相应的利润由如下得益矩阵给出:
(1) 该博弈是否存在纳什均衡?如果存在的话,哪些结果是纳什均衡?

参考答案:
由划线法可知,该矩阵博弈有两个纯策略 Nash 均衡,即(低质量, 高质量), (高质量,低质量)。
乙企业
高质量 低质量
高质量 50,50 100,800
甲企业
低质量 900,600 -20,-30
该矩阵博弈还有一个混合的纳什均衡

Q=a+d-b-c= -970,q=d-b= -120,R= -1380,r= -630,可得

因此该问题的混合纳什均衡为 。

17、甲、乙两企业分属两个国家,在开发某种新产品方面有如下收益矩阵表示的博弈关系。试求出该博弈的
纳什均衡。如果乙企业所在国政府想保护本国企业利益,可以采取什么措施?
乙企业
开发 不开发
甲企业 开发 -10,-10 100,0
不开发 0,100 0,0
解:用划线法找出问题的纯策略纳什均衡点。

所以可知该问题有两个纯策略纳什均衡点(开发,不开发)和(不开发,开发)。

该博弈还有一个混合的纳什均衡(( ),( ))。

如果乙企业所在国政府对企业开发新产品补贴 a 个单位,则收益矩阵变为: ,

要使(不开发,开发)成为该博弈的唯一纳什均衡点,只需 a>10。此时乙企业的收益为 100+a。

18、博弈的收益矩阵如下表:

左 右
上 a,b c,d

下 e,f g,h
(1)如果(上,左)是占优策略均衡,则 a、b、c、d、e、f、g、h 之间必然满足哪些关系?(尽量把所有
必要的关系式都写出来)
(2)如果(上,左)是纳什均衡,则(1)中的关系式哪些必须满足?
(3)如果(上,左)是占优策略均衡,那么它是否必定是纳什均衡?为什么?

5
(4)在什么情况下,纯战略纳什均衡不存在?
答:(1) , , , 。本题另外一个思考角度是从占优策略均衡的定义出发。
对乙而言,占优策略为 ;而对甲而言,占优策略为 。综合起来可得到
所需结论。
(2)纳什均衡只需满足:甲选上的策略时, ,同时乙选左的策略时, 。故本题中纳什
均衡的条件为: , 。
(3)占优策略均衡一定是纳什均衡,因为占优策略均衡的条件包含了纳什均衡的条件。
(4)当对每一方来说,任意一种策略组合都不满足纳什均衡时,纯战略纳什均衡就不存在。

19、Smith 和 John 玩数字匹配游戏,每个人选择 1、2、3,如果数字相同, John 给 Smith 3 美元,如果不


同,Smith 给 John 1 美元。
(1)列出收益矩阵。
(2)如果参与者以 1/3 的概率选择每一个数字,证明该混合策略存在一个纳什均衡,它为多少?
答:(1)此博弈的收益矩阵如下表。该博弈是零和博弈,无纳什均衡。

John
1 2 3
1 3,-3 -1,1 -1,1
Smith 2 -1,1 3,-3 -1,1
3 -1,1 -1,1 3,-3

(2)Smith 选(1/3,1/3,1/3)的混合概率时,

John 选 1 的效用为:

John 选 2 的效用为:

John 选 3 的效用为:

类似地,John 选(1/3,1/3,1/3)的混合概率时,

Smith 选 1 的效用为:

Smith 选 2 的效用为:

Smith 选 3 的效用为:

因为 , ,所以:

是纳什均衡,策略值分别为 John: ;Smith: 。

20 、 假 设 双 头 垄 断 企 业 的 成 本 函 数 分 别 为 : , ,市场需求曲线为

6
,其中, 。

(1)求出古诺(Cournot)均衡情况下的产量、价格和利润,求出各自的反应和等利润曲线,并图示
均衡点。
(2)求出斯塔克博格(Stackelberg)均衡情况下的产量、价格和利润,并以图形表示。
(3)说明导致上述两种均衡结果差异的原因。
答:(1)对于垄断企业 1 来说:

这是垄断企业 1 的反应函数。

其等利润曲线为:

对垄断企业 2 来说:

这是垄断企业 2 的反应函数。

其等利润曲线为:

在达到均衡时,有:

均衡时的价格为:
两垄断企业的利润分别为:

均衡点可图示为:

7
190
企业 1 的反应线

企业 2
均衡点

0 95 200
企业 1

(2)当垄断企业 1 为领导者时,企业 2 视企业 1 的产量为既定,其反应函数为:

则企业 1 的问题可简化为:

均衡时价格为:

利润为: ,

该均衡可用下图表示:

190
企业 1 的反应线
企业 2

Stackelberg 均 衡
50 点 企业 2 的反应线

0 95 200
企业 1

企业 2 领先时可依此类推。
(3)当企业 1 为领先者时,其获得的利润要比古诺竞争下多。而企业 2 获得的利润较少。这是因为,
企业 1 先行动时,其能考虑企业 2 的反应,并以此来制定自己的生产计划,而企业 2 只能被动地接受企业
1 的既定产量,计划自己的产出,这是一种“先动优势”

21、在一个由三寡头操纵的垄断市场中,逆需求函数为 p=a-q1-q2-q3,这里 qi 是企业 i 的产量。每一企业生


产的单位成本为常数 c。三企业决定各自产量的顺序如下:(1)企业 1 首先选择 q1≥0;(2)企业 2 和企业 3

8
观察到 q1,然后同时分别选择 q2 和 q3。试解出该博弈的子博弈完美纳什均衡。
答:该博弈分为两个阶段,第一阶段企业 1 选择产量 q1,第二阶段企业 2 和 3 观测到 q1 后,他们之间作一
完全信息的静态博弈。我们按照逆向递归法对博弈进行求解。
(1)假设企业 1 已选定产量 q1,先进行第二阶段的计算。设企业 2,3 的利润函数分别为:

由于两企业均要追求利润最大,故对以上两式分别求一阶条件:

(1)

(2)

求解(1)、(2)组成的方程组有:

(3)

(2)现进行第一阶段的博弈分析:
对与企业 1,其利润函数为;

将(3)代入可得:

(4)

式(4)对 q1 求导:

解得:

(5)

此时,

(3)将式(5)代回(3)和(4)有该博弈的子博弈完美纳什均衡:

25、某寡头垄断市场上有两个厂商,总成本均为自身产量的 20 倍, 市场需求函数为 Q=200-P。


求(1)若两个厂商同时决定产量,产量分别是多少?
(2)若两个厂商达成协议垄断市场,共同安排产量,则各自的利润情况如何?
答:(1)分别求反应函数,180-2Q1-Q2=0,180-Q1-2Q2=0,Q1=Q2=60
(2)200-2Q=20,Q=90,Q1=Q2=45

9
26、一个工人给一个老板干活,工资标准是 100 元。工人可以选择是否偷懒,老板则选择是否克扣工资。假
设工人不偷懒有相当于 50 元的负效用,老板想克扣工资则总有借口扣掉 60 元工资,工人不偷懒老板有
150 元产出,而工人偷懒时老板只有 80 元产出,但老板在支付工资之前无法知道实际产出,这些情况双
方都知道。请问:
(1)如果老板完全能够看出工人是否偷懒,博弈属于哪种类型?用得益矩阵或扩展形表示
该博弈并作简单分析。
(2)如果老板无法看出工人是否偷懒,博弈属于哪种类型?用得益矩阵或扩展形表示该博
弈并作简单分析。
(1)完全信息动态博弈。

博弈结果应该是工人偷懒,老板克扣。
(2)完全信息静态博弈,结果仍然是工人偷懒,老板克扣。

27、举一个你在现实生活中遇到的囚犯两难困境的例子。
答:在校园的人行道交叉路口,无需红绿灯。现在两人分别骑车从东西方向和南北方向通过路口。若
同时往前冲,必定相撞,各自支付为(-2,-2);若同时停下,都不能按时前进,支付为(0,0);若一
人前进一人停下,支付为(2,0)或(0,2)。相应的策略和支付矩阵如下表。


前进 停下
甲 前进 -2,-2 2,0

10
停下 0,2 0,0

28、给定两家酿酒企业 A、B 的收益矩阵如下表:


A 企业
白酒 啤酒
白酒 700,600 900,1000
B 企业
啤酒 800,900 600,800
表中每组数字前面一个表示 B 企业的收益,后一个数字表示 B 企业的收益。
(1)求出该博弈问题的均衡解,是占优策略均衡还是纳什均衡?
(2)存在帕累托改进吗?如果存在,在什么条件下可以实现?福利增量是多少?
(3)如何改变上述 A、B 企业的收益才能使均衡成为纳什均衡或占优策略均衡?如何改变上述 A、B 企
业的收益才能使该博弈不存在均衡?
答:(1)有两个纳什均衡,即(啤酒,白酒)、(白酒,啤酒),都是纳什均衡而不是占优策略均
衡。
(2)显然,(白酒,啤酒)是最佳均衡,此时双方均获得其最大收益。若均衡解为(啤酒,白酒),
则存在帕累托改善的可能。方法是双方沟通,共同做出理性选择,也可由一方向另一方支付报酬。福利由
800+900 变为 900+1000,增量为 200。
(3)如将(啤酒,白酒)支付改为(1000,1100),则(啤酒,白酒)就成为占优策略均衡。比如将
(啤酒,白酒)支付改为(800,500),将(白酒,啤酒)支付改为(900,500),则该博弈就不存在任
何占优策略均衡或纳什均衡。

30、在纳税检查的博弈中,假设 A 为应纳税款,C 为检查成本,F 是偷税罚款,且 C<A+F;S 为税务机关检


查的概率,E 为纳税人逃税的概率;不存在纯战略纳什均衡。
(1)写出支付矩阵。
(2)分析混合策略纳什均衡。
答:(1)该博弈的支付矩阵如下表:

纳税人
逃税 不逃税
检查 A-C+F, -A-F A-C,-A
税收机关
不检查 0,0 A,-A

(2)先分析税收检查边际:因为 S 为税务机关检查的概率,E 为纳税人逃税的概率。给定 E,税收机


关选择检查与否的期望收益为:

11
解 ,得: 。
如果纳税人逃税概率小于 E,税收机关的最优决策是不检查,否则是检查。
再分析逃税边际:给定 S,纳税人选择逃税与否的期望收益是:

解 ,得: 。即如果税收机关检查的概率小于 S,纳税人的最


优选择是逃税,否则是交税。
因此,混合纳什均衡是(S,E),即税收机关以 S 的概率查税,而纳税人以 E 的概率逃税。

31、判断下列说法正确:
(1)斯塔克博格产量领导者所获得的利润的下限是古诺均衡下它得到的利润。
(2)由于两个罪犯只打算犯罪一次,所以被捕后才出现了不合作的问题即囚徒困境。但如果他们打算
重复合伙多次,比如说 20 次,那么对策论预测他们将采取彼此合作的态度,即谁都不招供。
答:(1)正确。在斯塔克博格模型中,领导者可以根据跟随者的反应曲线来制定自己的最优产量。其
利润一定不会小于古诺均衡下的利润,否则,领导者将采取古诺博弈中双方同时行动的策略而获得古诺均
衡的利润。
(2)错误。只要两囚犯只打算合作有限次,其最优策略均为招供。比如最后一次合谋,两小偷被抓住
了,因为将来没有合作机会了,最优策略均为招供。回退到倒数第二次,既然已经知道下次不会合作,这
次为什么要合作呢。依此类推,对于有限次内的任何一次,两小偷均不可能合作。

34、假设古诺的双寡头模型中双寡头面临如下一条线性需求曲线:

TR1  PQ1  (30  Q)Q1  30Q  Q12  Q1Q2


P=30-Q
其中 Q 为两厂商的总产量,即 Q=Q1+Q2。
再假设边际成本为零,即
MC1=MC2=0
解释并讨论此例的纳斯均衡,为什么其均衡是一种囚徒困境。

厂商 1 的总收益 TR1 由下式给出:


TR1  PQ1  (30  Q)Q1  30Q  Q12  Q1Q2

厂商 1 的边际收益 MR1 为:
MR1=30-2Q1-Q2
利用利润最大化条件 MR1=MC1=0,得厂商 1 的反应函数(reaction function)或反应曲线为:
Q1=15-0.5Q2 (6-1)
同理可得厂商 2 的反应曲线为:
Q2=15-0.5Q1 (6-2)
均衡产量水平就是两反应曲线交点 Q1 和 Q2 的值,即方程组 6-1 和 6-2 的解。可以求得古诺均衡时的均
衡产量水平为:Q1=Q2=10。
因此,在本例中,两个寡头的总产量 Q 为 Q1+Q2=20,均衡价格为 P=30-Q=10。
刚才我们讨论了两寡头厂商相互竞争时的均衡产量。现在我们放松第(6)条不能串谋的假设,假定两
寡头可以串谋。它们能共同确定产量以使总利润最大化。

12
这时,两厂商的总收益 TR 为:
TR=PQ=(30-Q)Q=30Q-Q2
其边际收益 MR 为:
MR=30-2Q
根据利润最大化条件 MR=MC=0,可以求得当 Q=15 时总利润最大。如果两厂商同意平分利润,每个寡头厂商
将各生产总产量的一半,即 Q1=Q2=7.5。其实,任何相加为 15 的产量 Q1 和 Q2 的组合都使总利润最大化,因
此,把 Q1+Q2=15 称为契约曲线,而 Q1=Q2=7.5 是契约曲线上的一个点。
我们还可以求得当价格等于边际成本时,Q1=Q2=15,各厂商的利润为零。

35、两家电视台竞争周末黄金时段晚8点到10点的收视率,可选择把较好的节目放在前面还是后面。他们决

策的不同组合导致收视率如下:

(1)如果两家是同时决策,有纳什均衡吗?
有(前面,后面)

13
(2)如果双方采用规避风险的策略,均衡的结果是什么?
此题应用的思想是最大最小收益法:
也就是说,在对手采取策略时,所获得的最小收益中的最大值。
电视台1:对方采取前面战略的最小收益为18
对方采取后面战略的最小收益为16
固电视台1 会选择收益为18的战略——前面
电视台2:前面的策略是一个优超策略——前面
策略均衡为(前面,前面)
(3) 如 果 电 视 台 1 先 选 择 , 结 果 有 什 么 ? 若 电 视 台 2 先 选 择 呢 ?

14
(4)如果两家谈判合作,电视台1许诺将好节目放在前面,这许诺可信吗?结果能是什么?
电视台1 许诺将好节目放在前面的许诺不可信。
因为电视台2,前面为占优策略,
而在电视台2 ,选择前面的时候,电视台1 选择后面的收益要大于前面的收益。
所以,最终结果为(前面,后面)

36、如果将如下的囚徒困境博弈重复进行无穷次,惩罚机制为触发策略,贴现因子为 δ。试问 δ 应满足什


么条件,才存在子博弈完美纳什均衡?

坦白 不坦白

坦白 4,4 0,5
不坦白 5,0 1,1
参考答案:
由划线法求得该博弈的纯策略纳什均衡点为(不坦白,不坦白),均衡结果为(1,1),采用触发策略,局中人

i 的策略组合 s 的最好反应支付 =5,Pi(s*)=4,Pi(sc)=1。若存在子博弈完美纳

什均衡,必须满足: ,即只有当贴现因子 >1/4 时,才存在子博

弈完美纳什均衡。

37、在Bertrand价格博弈中,假定有n个生产企业,需求函数为P=a-Q,其中P是市场价格,Q是n个生产企业
的总供给量。假定博弈重复无穷多次,每次的价格都立即被观测到,企业使用“触发策略”(一旦某个企业
选择垄断价格,则执行“冷酷策略”)。求使垄断价格可以作为完美均衡结果出现的最低贴现因子δ是多少
并请解释δ与n的关系。
分析:此题可分解为3个步骤
(1)n个企业合作,产量总和为垄断产量,价格为垄断价格,然后平分利润。
(2)其中一个企业采取欺骗手段降价,那个这家企业就占有的全部市场,获得垄断利润
(3)其他企业触发战略,将价格降到等于边际成本,所有的企业利润为零。
参考答案:
(1)设每个企业的边际成本为c,固定成本为0
P=a-Q
TR=P*Q=(a-Q)*Q
MR=a-2Q
因为:MR=MC
a-2Q=c
则:Q=(a-c)/2
P=(a+c)/2
π=(P-c)*Q=(a-c)2/4
每家企业的利润为(a-c)2/4n
(2)假设A企业自主降价,虽然只是微小的价格调整,但足以占领整个市场 ,获得所有的垄断利润——
(a-c)2/4
(3)其他企业在下一期采取冷酷策略,使得所有企业的利润为0

15
考虑:
A企业不降价: (a-c)2/4n, (a-c)2/4n, ……
A企业降价: (a-c)2/4, 0, ……
使垄断价格可以作为完美均衡结果,就要使得不降价的贴现值大于等于降价的贴现值。
设贴现因子为δ
A不降价的贴现值: [(a-c)2/4n][1/(1- δ)]
A降价的现值: (a-c)2/4
于是:[(a-c)2/4n][1/(1- δ)]≥ (a-c)2/4
解得: δ≥1-1/n
38、假设某劳动市场为完全竞争市场,其供求函数如下: SL:W=120+2L DL:W=360-L
已知某厂商(在完全竞争市场下)的生产函数为 f(L,K)=10L0.5K0.5 (K=100)
且其产品的需求与供给函数分别为

论述题(每小题 20 分,共 20 分)

解释“囚犯困境”,并举商业案例说明。
囚徒困境是博弈论里最著名的例子之一,几乎所有的博弈论著作中都要讨论这个例子。这个例子是这
样的:两囚徒被指控是一宗罪案的同案犯。他们被分别关在不同的牢房无法互通信息。各囚徒都被要求坦
白罪行。如果两囚徒都坦白,各将被判入狱 5 年;如果两人都不坦白,则很难对他们提起刑事诉讼,因而
两囚徒可以期望被从轻发落入狱 2 年;另一方面,如果一个囚徒坦白而另一个囚徒不坦白,坦白的这个囚
徒就只需入狱 1 年,而不坦白的囚徒将被判入狱 10 年。表 6-2 给出了囚徒困境的策略式表述。这里,每个
囚徒都有两种策略:坦白或不坦白。表中的数字分别代表囚徒甲和乙的得益。(注意,这里的得益是负值。)

16
表 6-2 囚徒困境
囚徒乙
坦白 不坦白
坦白 -5, -5 -1, -10
囚徒甲
不坦白 -10, -1 -2, -2
在囚徒困境这个模型中,纳什均衡就是双方都坦白,给定甲坦白的情况下,乙的最优策略是坦白;
给定乙坦白的情况下,甲的最优策略也是坦白。而且这里双方都坦白不仅是纳什均衡,而且是一个上策
(dominant strategy)均衡,即不论对方如何选择,个人的最优选择是坦白。因为如果乙不坦白,甲坦白的
话就被轻判 1 年,不坦白的话就判 2 年,坦白比不坦白要好;如果乙坦白,甲坦白的话判 5 年,不坦白的
话判 10 年,所以,坦白仍然比不坦白要好。这样,坦白就是甲的上策,当然也是乙的上策。其结果是双方
都坦白。这个组合是纳什均衡。
寡头垄断厂商经常发现它们自己处于一种囚徒的困境。当寡头厂商选择产量时,如果寡头厂商们联合
起来形成卡特尔,选择垄断利润最大化产量,每个厂商都可以得到更多的利润。但卡特尔协定不是一个纳
什均衡,因为给定双方遵守协议的情况下,每个厂商都想增加生产,结果是每个厂商都只得到纳什均衡产
量的利润,它远小于卡特尔产量下的利润。
解释“智猪博弈(boxed pigs)”,并举商业案例说明。

智猪博弈的例子讲的是:猪圈里有一头大猪和一头小猪,猪圈的一头有一个猪食槽,另一头安装一
个按扭,控制着猪食的供应。每按一下按扭会有 10 个单位的猪食进槽,但谁按按扭谁就要付 2 个单位的成
本并且晚到猪食槽。若大猪先到猪食槽,大猪吃到 9 个单位,小猪只能吃到 1 个单位;若小猪先到猪食槽,
大猪吃到 6 个单位,小猪吃 4 个单位;若同时到,大猪吃到 7 个单位,小猪只能吃 3 个单位。表 6-3 列出了
对应于不同策略组合的得益水平。例如,表中第一格表示大猪小猪同时按按扭,从而同时走到猪食槽,大
猪吃 7 个,小猪吃 3 个,除去 2 个单位成本,得益分别为 5 和 1。
表 6-3 智猪博弈
小猪
按 不按
按 5, 1 4, 4
大猪
不按 9, -1 0, 0
从表 6-3 可以看到,对于小猪来说,如果大猪按,它则不按更好;如果大猪不按,它不按也更好,
所以,不论大猪按还是不按,它的最优策略都是不按。给定小猪不按,大猪的最优选择只能是按。所以,
纳什均衡就是大猪按,小猪不按,各得 4 个单位猪食。
市场中的大企业与小企业之间的关系类似智猪博弈。大企业进行研究与开发,为新产品做广告,而对
小企业来说这些工作可能得不偿失。所以,小企业可能把精力花在模仿上,或等待大企业用广告打开市场
后再出售廉价产品。

解释““夫妻博弈”(battle of the sexes)”,并举商业案例说明。


“夫妻博弈”(battle of the sexes)的例子讲的是一对谈恋爱的男女安排业余活动,他们有二种
选择,或去看足球比赛,或去看芭蕾舞演出。男方偏好足球,女方偏好芭蕾,但他们宁愿在一起,不愿分
开。表 6-6 给出了这个博弈的得益矩阵。在这个博弈中,如果双方同时决定,则有两个纳什均衡,即都去看
足球比赛和都去看芭蕾演出。但是到底最后他们去看足球比赛还是去看芭蕾演出,并不能从中获得结论。
如果假设这是个序列博弈,例如,当女方先作出选择看芭蕾演出时,男方只能选择芭蕾;当女方先选择了
看足球比赛时,男方也只能选择足球。反之,当男方先选择了看足球比赛时,女方只能选择看足球比赛;
当男方先选择了看芭蕾演出时,女方只能选择芭蕾。

17
表 6-6 夫妻博弈

足球 芭蕾
足球 2,1 0,0

芭蕾 0,0 1,2
在这个博弈例子中,先行动者具有明显的优势,女方通过选择芭蕾造成一种既成事实,使得男方除
了 一 起 去 看 芭 蕾 之 外 别 无 选 择 。 这 就 是 我 们 在 斯 塔 克 尔 伯 格 模 型 中 提 到 的 先 动 优 势 (first mover
advantage)。在那个模型中,先行动的厂商选择一个很高的产量水平,从而使它的竞争对手除了选择小的
产量水平之外没有多大的选择余地。

解释古诺模型。

解释斯塔克尔伯格模型。
 斯塔克尔贝里(1934)提出一个双头垄断的动态模型,其中一个支配企业(领导者)首先行动,然后
从属企业(追随者)行。比如在美国汽车产业发展史中的某些阶段,通用汽车就扮演过这种领导者
的角色(这一例子把模型直接扩展到允许不止一个追随企业,如福特、克莱斯勒等等 )。根据斯塔
克尔贝里的假定,模型中的企业选择其产量,这一点和古诺模型是一致的 (只不过古诺模型中企
业是同时行动的,不同于这里的序贯行动)。
博弈的时间顺序如下:(1)企业 1 选择产量 q1 >0; (2)企业 2 观测到然后选择产量 q2 >0(3)企业 1 的收益由
下面的利润函数给出:

 这里 P(Q)=a-Q,是市场上的总产品 Q=q1+q2 时的市场出清价格,c 是生产的边际成本,为一常数


(固定成本为 0)。
 为解出这一博弈的逆向归纳解,我们首先计算企业 2 对企业 1 任意产量的最优反应,R2(q1)应
满足:

 对上面的通过求极值可得:

 已知 q1< a-c,在前面我们分析同时行动的古诺博弈中,得出的 R2(q1)和上式完全一致,两者的


不同之处在于这里的 R2(q1)是企业 2 对企业 1 已观测到的产量的真实反应,而在古诺的分析中,
R2(q1)是企业 2 对假定的企业 1 的产量的最优反应,且企业 1 的产量选择是和企业 2 同时作出的。
 由于企业 1 也能够像企业 2 一样解出企业 2 的最优反应,企业 1 就可以预测到他如选择 q1,企业
2 将根据 R2(q1)选择产量。那么在博弈的第一阶段,企业 1 的问题就可表示为:

 解得:

18

 这就是斯塔克尔贝里双头垄断博弈的逆向归纳解。
 对斯塔科尔贝里双头垄断博弈的逆向归纳解的评价:
 回顾在古诺博弈的纳什均衡中,每一企业的产量为(a 一 c)/3,也就是说,斯塔克尔贝里博弈中
逆向归纳解的总产量 3(a-c)/4,比古诺博弈中纳什均衡的总产量 2(a-c)/3 要高,从而斯塔克尔
贝里博弈相应的市场出清价格就比较低。不过在斯塔克尔贝里博弈中,企业 1 完全可以选择古诺
均衡产量(a 一 c)/3 ,这时企业 2 的最优反应同样是古诺均衡的产量,也就是说在斯塔克尔贝里
博弈中,企业 1 完全可以使利润水平达到古诺均衡的水平,而却选择了其他产量,那么企业 1 在
斯塔克尔贝里博弈中的利润一定高于其在古诺博弈中的利润。但斯塔克尔贝里博弈中的市场出清
价格降低了,从而总利润水平也会下降,那么和古诺博弈的结果相比,在斯塔克尔贝里博弈中,
企业 1 利润的增加必定意味着企业 2 福利的恶化。
 和古诺博弈相比,斯塔克尔贝里博弈中企业 2 利润水平的降低,揭示了单人决策问题和多人决
策间题的一个重要不同之处。在单人决策理论中,占有更多的信息决不会对决策制定者带来不利 ,
然而在博弈论中,了解更多的信息(或更为精确地说,是让其他参加者知道一个人掌握更多的信
息)却可以让一个参与者受损。

解释里昂惕夫的工会模型。
 在里昂惕夫(1946)模型中,讨论了一个企业和一个垄断的工会组织(即作为企业劳动力惟一供给
者的工会组织)的相互关系:工会对工资水平说一不二,但企业却可以自主决定就业人数 (在更符
合现实情况的模型中,企业和工会间就工资水平讨价还价,但企业仍自主决定就业,得到的定性
结果与本模型相似)。工会的效用函数为 U(W, L),其中 W 为工会向企业开出的工资水平,L 为就
业人数。
 假定 U(W, L)是 W 和 L 的增函数。企业的利润函数为 ,

其中 R (L)为企业雇佣 L 名工人可以取得的收入(在最优的生产和产品市场决策下),假定 R (L)


是增函数,并且为凹函数。
 假定博弈的时序为:(1)工会给出需要的工资水平 W;(2)企业观测到(并接受)W,随后选择雇佣人
数 L;(3)收益分别为 U(W, L)和 。即使没有假定 U(W, L)和 R (L)的具体的表

达式,从而无法明确解出该博弈的逆向归纳解,但我们仍可以就解的主要特征进行讨论。
 首先,对工会在第一阶段任意一个工资水平 w,我们能够分析在第二阶段企业最优反应 L*(W)的
特征。给定 w,企业选择 L*(W)满足下式:

 一阶条件为:

 为了满足上述一阶条件,假设 R’(0)=∞; R’(∞)=0.

19
 下面的图把 L *(w)表示为 w 的函数(但坐标轴经过旋转以便于和以后的数据相比较),并表示出它
和企业每条等利润线交于其最高点。若令 L 保持不变,

 L 保持不变,w 降低时企业的利润就会提高,于是较低的等利润曲线代表了较高的利润水平。

 这张图描述了工会的无差异曲线,若令 L 不变,当 w 提高时工会的福利就会增加。于是较高的无


差异曲线代表了工会较高的效用水平。
 下面我们分析工会在第一阶段的问题,由于工会和企业同样可以解出企业在第二阶段的问题,工
会就可预测到如果它要求的工资水平为 w1,企业最优反应的就业人数将会是 L*(w1)。那么,工会
在第一阶段的问题可以表示为:

20
 表现在图中的无差异曲线上就是,工会希望选择一个工资水平 w,由此得到的结果(w, L*(w))
处于可能达到的最高的无差异线上。这一最优化间题的解为 w*,这样一个工资要求将使得工会通
过(w*, L*(w*))的无差异曲线与 L*(w)相切于该点,如图所示。从而(w*, L*(w*))就是这一工
资与就业博弈的逆向归纳解。

 更进一步我们还可以看出,(w‘*,L*(w*))是低效率的,在上图中,如果 w 和 L 处于图中阴影部
分以内,企业和工会的效用水平都会提高。这种低效率对实践中企业对雇佣工人数量保持的绝对
控制权提出了质疑。(允许工人和企业就工资相互讨价还价,但企业仍对雇佣工人数量绝对控制,
也会得到相似的低效率解)。

解释伯特兰德模型。

用“小偷与守卫的博弈”说明“激励悖论”。

犯罪和防止犯罪是罪犯和警察之间进行博弈的一场游戏。警察可以加强巡逻,或者休息。犯罪者可以采取
作案、不作案两种策略。如果罪犯知道警察休息,他的最佳选择就是作案;如果警察加强巡逻,他最好还
是不作案。对于警察,如果他知道犯罪者想作案,他的最佳选择是加强巡逻,如果犯罪者采取不作案,自
己最好去休息。当然,犯罪者和警察都不可能完全知晓对方将采取的行动,因此他们都将估计对方采取某
种行动的概率,从而决定自己要采取的行动。结果是,他们将以一定的概率随机地采取行动,这叫“混合
策略”。 我们可以简单地分析一下混合策略(对数字不感兴趣的读者可以不看下面一段)。下面是犯罪者
与警察的支付矩阵(假定犯罪者在警察休息时一定作案成功,在警察巡逻时作案一定会被抓住):

        犯罪者
     不作案  作案
警察 巡逻 0,0   2,-2
   休息 2,0   -1,1

21
  这个矩阵的数字含义可以表示,警察巡逻,犯罪者不作案,双方都没有收益也没有损失;警察巡逻,
犯罪者作案,警察因抓到罪犯受到表彰,得到效用 2 单位,罪犯被判刑丧失效用 2 单位;警察休息,犯罪
者不作案,警察休息的很愉快得到效用 2 单位,犯罪者没有收益也没有损失;警察休息,犯罪者作案,警
察因失职被处分而丧失效用 1 单位,罪犯犯罪成功获得效用 1 单位。这个博弈是没有纳什均衡的。

  但是,如果警察知道犯罪者以 p 的概率选择作案(不作案概率就为 1-p),他该怎样采取自己的行动?


对警察而言,巡逻的预期效用为 0×(1-p)+2p=2p,休息的预期效用为 2×(1-p)-1×p=2-3p。显然,当
2p>2-3p 即 p>0.4 的时候,警察最好选择巡逻;反之 2p<2-3p 即 p<0.4 的时候,警察宁愿选择休息。假设警察
应以 q 的概率巡逻(休息的概率就为 1-q),那么犯罪者最好的行动是什么?他作案的预期效用是-
2×q+1×(1-q)=1-3q,不作案的预期效用为 0×q+0×(1-q)=0。显然,当 1-3q>0 即 q<0.33 时,他的理
性选择是作案,反之不作案。在这个博弈中,警察以 0.33 的概率巡逻 0.67 的概率休息,犯罪者以 0.4 的
概率作案 0.6 的概率不作案构成一个混合纳什均衡。

  上述混合纳什均衡可以这样理解,如果警察以高于 0.33 的概率巡逻,犯罪者最好是躲避起来。犯罪者


一旦躲避,警察就没有收获,于是降低巡逻的概率,于是犯罪者重新活跃,于是警察又提高巡逻概率……
从一个长期来看,两者的均衡将维持在警察以 0.33 的概率巡逻犯罪者以 0.4 的概率作案上面。现实中,我
们看到,当严打的时候(警察出击的概率较高),犯罪分子便收敛一阵(降低作案概率);严打的时期一
过,犯罪分子又开始兴风作浪,在不能容忍罪犯过分猖狂的时候,警界不得不再次开始严打。

在上述例子中,可能大家觉得警察和犯罪者都根据一定概率采取自己的行动不太好理解,那么可以
尝试这样理解他们:作案的犯罪者越多,那么出动的警察将会越多,作案的犯罪者越少,出动的警察将越
少;反过来,出动的警察越多,作案的犯罪者就越少,出动的警察越少,作案的犯罪者就越多。极端地假
设一个例子(它有助于我们的理解),警局有 100 名警察,犯罪集团有 100 名犯罪者,那么上例博弈中,
警察以 0.33 的概率巡逻而犯罪者以 0.4 的概率作案这一纳什均衡可以理解为:在巡逻的警察少于 33 人时,
犯罪集团最好派 40 名以上的犯罪者作案;在巡逻警察多于 33 人时,犯罪集团最好派 40 名以下的犯罪者
作案;反过来,犯罪集团派 40 名以下犯罪者作案,警局最优选择出动 33 名以下的警察;犯罪集团派 40
名以上犯罪者作案,警局最优选择出动 33 名以上的警察。当然,如果犯罪集团倾巢出动,那么警察的选择
也是全部出动,但警察一旦全部出动,犯罪者最好选择全部不作案,犯罪者一旦选择全部不作案,警察最
好全部选择休息……最后长期的均衡状态是,警局派 33 名警察巡逻,犯罪集团派 40 个人作案。这可以解
释现实中,为什么警界总安排有巡逻力量,而犯罪者也总保持一定的作案数量。

总之,这种警察和犯罪者的博弈所揭示出:加重对罪犯的处罚在长期中并不能抑制犯罪(而只能使警察偷
懒);加重处罚失职警察恰恰是会降低犯罪发生的概率。

这种警察和犯罪者的博弈所揭示的,政策目标和政策结果之间的这种意外关系,常被称为“激励的悖论”。

判断题(每小题 1 分,共 15 分)

囚徒困境说明个人的理性选择不一定是集体的理性选择。(√ )

子博弈精炼纳什均衡不是一个纳什均衡。(× )

若一个博弈出现了皆大欢喜的结局,说明该博弈是一个合作的正和博弈。( )

博弈中知道越多的一方越有利。( ×)

22
纳什均衡一定是上策均衡。 (× )

上策均衡一定是纳什均衡。 (√)

在一个博弈中只可能存在一个纳什均衡。 (×)

在一个博弈中博弈方可以有很多个。 (√)

在一个博弈中如果存在多个纳什均衡则不存在上策均衡。 (√ )

在博弈中纳什均衡是博弈双方能获得的最好结果。 (× )

在博弈中如果某博弈方改变策略后得益增加则另一博弈方得益减少。 (× )

上策均衡是帕累托最优的均衡。 (×)

因为零和博弈中博弈方之间关系都是竞争性的、对立的,因此零和博弈就是非合作博弈。

(×)

在动态博弈中,因为后行动的博弈方可以先观察对方行为后再选择行为,因此总是有利的。(×)

在博弈中存在着先动优势和后动优势,所以后行动的人不一定总有利,例如:在斯塔克伯格模型中,
企业就可能具有先动优势。

囚徒的困境博弈中两个囚徒之所以会处于困境,无法得到较理想的结果,是因为两囚徒都不在乎坐
牢时间长短本身,只在乎不能比对方坐牢的时间更长。

(×)

纳什均衡即任一博弈方单独改变策略都只能得到更小利益的策略组合。(√ )

不存在纯战略纳什均衡和存在惟一的纯战略纳什均衡,作为原博弈构成的有限次重复博弈,共同特
点是重复博弈本质上不过是原博弈的简单重复,重复博弈的子博弈完美纳什均衡就是每次重复采用原博弈
的纳什均衡。(√ )

多个纯战略纳什均衡博弈的有限次重复博弈子博弈完美纳什均衡路径:两阶段都采用原博弈同一个
纯战略纳什均衡,或者轮流采用不同纯战略纳什均衡,或者两次都采用混合战略纳什均衡,或者混合战略
和纯战略轮流采用。(√ )

如果阶段博弈 G={A1, A2,…,An; u1, u2,…,un)具有多重 Nash 均衡,那么可能(但不必)存在重


复博弈 G(T)的子博弈完美均衡结局,其中对于任意的 t<T,在 t 阶段的结局并不是 G 的 Nash 均衡。(√
)(或:如果阶段博弈 G={A1, A2,…,An; u1, u2,…,un)具有多重 Nash 均衡,那么该重复博弈 G(T)的
子博弈完美均衡结局,对于任意的 t<T,在 t 阶段的结局一定是 G 的 Nash 均衡。)

23
零和博弈的无限次重复博弈中,所有阶段都不可能发生合作,局中人会一直重复原博弈的混合战略
纳什均衡。(√ )(或:零和博弈的无限次重复博弈中,可能发生合作,局中人不一定会一直重复原博弈
的混合战略纳什均衡。(×))

原博弈惟一的纳什均衡本身是帕雷托效率意义上最佳战略组合,符合各局中人最大利益:采用原博
弈的纯战略纳什均衡本身是各局中人能实现的最好结果,符合所有局中人的利益,因此,不管是重复有限
次还是无限次,不会和一次性博弈有区别。(√ )

原博弈惟一的纳什均衡本身是帕雷托效率意义上最佳战略组合,符合各局中人最大利益,但惟一的
纳什均衡不是效率最高的战略组合,存在潜在合作利益的囚徒困境博弈。(√ )(或:原博弈惟一的纳什
均衡本身是帕雷托效率意义上最佳战略组合,符合各局中人最大利益,不存在潜在合作利益的囚徒困境博
弈。(×))

根据参与人行动的先后顺序,博弈可以划分为静态博弈(static game)和动态博弈(dynamic game)。

如果阶段博弈 G 有唯一的 Nash 均衡,那么对任意有限次 T,重复博弈 G(T)有唯一的子博弈完美结局:


在每一阶段取 G 的 Nash 均衡策略。(√ )

24

You might also like