综合I类/II类理性人的博弈策略

发布时间：2015-07-23 10:15

　　[摘要]
　　两人零和博弈作为较归整的形式，在博弈论的早期研究中已经得到的深入讨论。本文引入了Ｉ类理性与ＩＩ类理性的概念，认为现实博弈中的参与人往往既可能从Ｉ类理性的角度采取战略，也可能是从ＩＩ类理性人的角度出发，因此，构造了一个综合了Ｉ类和ＩＩ类理性特征的支付矩阵，通过对一些常见的非零和博弈实例进行讨论，认为这一模型可以解决战略选择的不确定性问题。但本文没有对此进行严格的数学证明。
[关键词]
I类理性，II类理性，混合战略，战略选择，不确定性
  在经济学的博弈理论中,一般假设参与人(PLAYERS)具有理性人的特征, 即总是寻求自身的最大化利益，选择能使个人利益最大化的策略。在计算收益的时候，使用的是个人所得。这是一个“绝对量”，而现实中，也存在着另外一种情况，也就是参与者之间除了考虑自己的所得之外，也很关心对方的所得，并比较相互间的差异，采取使“相对”所得最大化的策略。我们不妨把以追求相对所得最大化的行为人称为II类理性人，并从博弈论的角度对他们的行为模式进行研究。
  具有II类理性特征的现象在很多方面都有存在。比如，我们在人际交往中确实会碰到一些“损人利己”的人，也会见到“损人不利己”的人，从我们观点看来，他们是非理性的，但是进行换位思考就会发现，其实他们的行事原则是相对来说，总要让自己占便宜或者自己吃得亏比对方少，至于别人是否会吃亏，不是他们考虑的因素，这也是一种“理性”行为，也有出于心理层面的考虑,认为自己所得相对较少或者自己损失较大是一种不公平,并从自己的角度出发进行策略选择。在激烈的市场角逐中，竞争双方在短期内有时会不计代价地采取大出血的策略而欲先致对手于死地，希望对手先被淘汰而自己会坚持到最后。如果做不到这点，也要最大程度地削弱对手力量，使其一蹶不振而不会对自己再构成威胁。这种商场竞争，并期望自己能笑到最后的思维，也是“理性”的。有研究表明，国际关系中这样的II类理性的例子更不少见。这些虽然是比较极端的例子，现实生活中，更多的可能是，每个人或组织都会考虑自己的所得，并期望自己的所得比别人的大。关键是对两种所得在考虑时的权数是随情况不同而变化的。如果否定在策略选择中的II类理性因素，可能会对一些现象无法解释。尽管从道德角度讲不值得提倡，而且从价值评判上总是受到谴责, 但作为一种存在的现象,仍然有必要加以研究。但本文从II类理性个体的博弈战略开始，并过渡到一个综合了I类和II类理性行为的博弈模型，对例中设计的参与人的战略选择，只进行经济学分析而不做道义上的衡量。
  当博弈参与者是II类理性人时, 此时收益矩阵的取值有一定的规律。假设两个参与人甲和乙都是II类理性人时，对比在I类理性的得益矩阵(图１)

　　          乙
          S1   S2
甲 S1 (m1,n1) (m2,n2)
S2 (m3,n3) (m4,n4)
　　　　　图１．Ｉ类理性参与人收益矩阵
ＩＩ类理性参与人的得益矩阵如下图所示：
　             　乙
            S1   S2
甲 S1 (m1-n1,n1-m1) (m2-n2,n2-m2)
S2 (m3-n3,n3-m3) (m4-n4,n4-m4)
　　　　　　　图２．ＩＩ类理性参与人收益矩阵
很明显，在ＩＩ类理性参与人进行的博弈里，在每一个战略组合下，双方的得益之和必为零，此时的博弈具有零和的性质。这就是早期博弈论中重点研究的二人零和博弈的情形,在1910年~1930年间, 作为绝对竞争的形式,零和博弈被认为是博弈理论中的主要形态得到了深入的研究。而且对零和博弈的研究成果成为了现代博弈理论中很多新理论的基础概念。
  作为一个练习，我们把常见博弈模型改为零和博弈情形，来看相应的结果会是怎样的。一般认为，零和博弈是一种常和博弈，而最普遍意义下的博弈情形是非常和的。
例1．囚犯困境
甲，乙涉嫌同谋犯罪，分别在两个房间被提审。提审官预先向两人交代政策：如果他们都承认犯罪事实，各判刑10年；如果两人都否认，双方都无罪释放；如果一方认罪一方抵赖，认罪方获500元奖励，抵赖方被判15年。在非零和博弈情形下的支付矩阵

　　          乙
          承认抵赖
甲承认 (-10,-10) (5,-15)
抵赖 (-15,5) (0,0)
               图3
纳什均衡策略是（承认，承认），如果甲乙两人是II类理性人，他们的相应支付矩阵就变成了：
　　          乙
          承认  抵赖
甲承认 (0,0) (20,-20)
抵赖 (-20,20) (0,0)
              图4
可以看出，纳什均衡策略还是（承认，承认）。
例2．春节前夕，某小镇上两个商铺甲和乙同时看到一个赚钱机会：去城里贩一批鞭炮回来卖，购货款加上运输费共5000元，如果没有竞争对手，这批货在小镇上能卖6000元；但如果另一家商铺也同时在小镇上卖鞭炮，价格下跌使得这批鞭炮只能卖4000元。
对于甲乙都是I类理性人而言，有支付矩阵：
　              　乙
           进货      不进货
甲进货 (-1000,-1000) (1000,0)
不进货 (0,1000)       (0,0)
               图5
（不进货，进货）和（进货，不进货）为纳什均衡策略。但是问题在于，甲乙双方同时行动，而互相不知道对方采取的行动。
如果甲乙都是II类理性人，那么情况会变成：
　　           乙
          进货     不进货
甲进货 (0,0)    (1000,-1000)
不进货 (-1000,1000) (0,0)
              图6
此时的纳什均衡策略就是（进货，进货）。
例3．利己与利他
甲乙作为I类理性人，其支付矩阵为
　　          乙
         利己利他
甲利己 (1,1) (4,0)
利他 (0,4) (3,3)
              图7
纳什均衡是（利己，利己）；
甲乙作为II类理性人，其支付矩阵转化为：
　　          乙
         利己利他
甲利己 (0,0) (4,-4)
利他 (-4,4) (0,0)
              图8
纳什均衡仍然是（利己，利己）。
例4．智猪博弈
一头大猪和一头小猪被关在同一个猪圈里。猪圈的一头安装着一个特制的按键，另一头安装着一个食槽。但一头猪按下按键时，会有10单位的食物进入槽中，但按键的猪会付出2单位的成本；如果大猪先到食槽，则小猪只能吃到1单位的残羹剩饭；但若小猪先到的话，则它能吃到4单位的食物。若两猪同时到，则小猪可吃到3单位的食物。
如果按照I类理性，有支付矩阵：
　　         小猪
         按键等待
大猪按键 (5,1) (4,4)
等待 (9,-1) (0,0)
              图9
纳什均衡策略是（按键，等待）。
在II类理性下，重写支付矩阵为：
　　          小猪
         按键等待
大猪按键 (4,-4) (0,0)
等待 (10,-10) (0,0)
              图10
纳什均衡是（按键，等待）和（等待，等待）。
有趣的是，此时小猪一定会选择等待（占优战略），而大猪无论怎么做，都是一无所获！最终结果是两头猪都会饿死。
在这种情况下，两头猪的结局似乎和“布里丹的饥饿的驴”有共同点，后者因为面对同样两堆干草不能做出选择而饿死。在智猪博弈里，小猪认为自己的结果只能是损失或者既无损失又无所得，这时它会选择后者，而将责任推给大猪。现实中，不大可能出现两猪都饿死的结果，因为大猪最终会明白，与其被饿死还不如去按键，此时自己会得到4单位的食物；而小猪也会因为大猪作出这样的选择，而同样得到4单位的食物。
例5．性别战
两个恋人，男方想看拳击，女方想看芭蕾。如果需要的话，他们会牺牲自己的爱好而迁就对方。有下面的支付矩阵：
　　          女
         拳击芭蕾
男拳击 (2,1) (0,0)
芭蕾 (0,0) (1,2)
              图11
纳什均衡是（拳击，拳击）和（芭蕾，芭蕾）。
将支付矩阵做个变换：
　　          女
          拳击芭蕾
男拳击 (1,-1) (0,0)
芭蕾 (0,0) (-1,1)
              图12
那么，（拳击，芭蕾）就是纳什均衡策略。
例6．斗鸡博弈
两个人举着火棍从独木桥两端向中间前进，每个人都有两种战略：前进或退下阵来。若两人都继续前进，则两败俱伤；如果一方前进，另一方退下来，前进者取得胜利，退后者丢了面子；若两人都退了下来，则都丢了面子。支付矩阵
　　          A
          进退
B 进 (-3,-3) (2,0)
退 (0,2) (0,0)
              图13
纳什均衡策略是（进，退）和（退，进）；
按II类理性对支付矩阵进行变换后得：
　　          A
          进退
B 进 (0,0) (2,-2)
退 (-2,2) (0,0)
              图14
纳什均衡策略是（进，进）。
　　在上面的讨论中，可以看到，在例2中，对于I类理性参与人，（不进货，进货）和（进货，不进货）都是纳什均衡策略，采取哪个战略要取决于对方的行动，在一次静态博弈中是很难在行动之初就了解到对方的战略的，因此存在选择上的不确定性。在智猪博弈中，对于II类理性参与人而言，不能根据支付矩阵决定出大猪的战略，如何才能避免在选择时出现这样的不确定状态呢？有必要考虑某种混合战略。
一般来讲，博弈的每个参与者在某些时间会按I类理性人行为模式行事，而有时又会采用II类理性人模式行事。不妨将这种组合看成是决定于概率p和q。  这时候，假设甲遵循I类理性的概率是p，那么他是II类理性人的概率就是1-p,乙遵循I类理性的概率是q，相应他是II类理性人的概率是1-q。这时我们也可以构造出一种混合战略，得到支付矩阵：
　　                 乙
              S1         S2
甲 S1 m1-(1-p)n1,n1-(1-q)m1 m2-(1-p)n2,n2-(1-q)m2
S2 m3-(1-p)n3,n3-(1-q)m3 m4-(1-p)n4,n4-(1-q)m4
                  图15
对于Ｉ类理性可以看作p=1,q=1时的上述混合战略的一个特例；而ＩＩ类理性对应p=0,q=0的情况。
在现实中，还可能出现另一种情况，也就是甲乙两个参与者中，一方是I类理性的，而另一方是II类理性的，为方便起见，我们假设甲是I类理性人，乙为II类理性人，那么支付矩阵具有下面一般形式：
　　            乙
           S1       S2
甲 S1 (m1,n1-m1) (m2,n2-m2)
S2 (m3,n3-m3) (m4,n4-m4)
              图16
这其实是在p=1,q=0时，混合战略的一个特殊情况。
对于上述常见博弈案例，在这种情况下进行演绎，相应也会得到一些有趣的结果。
例1．囚犯困境
　　          乙
          承认抵赖
甲承认 (-10,0) (5,-20)
抵赖 (-15,20) (0,0)
              图17
纳什均衡策略仍是（承认，承认）；
例2．进货与不进货
　　           乙
          进货   不进货
甲进货 (-1000,0) (1000,-1000)
不进货 (0,1000) (0,0)
               图18
纳什均衡策略是（不进货，进货）。
例3．利己与利他
　　          乙
         利己利他
甲利己 (1,0) (4,-4)
利他 (0,4) (3,0)
              图19
纳什均衡策略仍是（利己，利己）。
例4．智猪博弈
　　         小猪
          按键等待
大猪按键 (5,-4) (4,0)
等待 (9,-10) (0,0)
              图20
纳什均衡策略是（按键，等待）。
例5．性别战
　　          女
          拳击芭蕾
男拳击 (2,-1) (0,0)
芭蕾 (0,0) (1,1)
              图21
纳什均衡策略是（芭蕾，芭蕾）。
例6．斗鸡博弈
　　          A
          进退
B 进 (-3,0) (2,-2)
退 (0,2) (0,0)
              图22
纳什均衡策略是（退，进）
可以发现，在多数情况下，II类理性人的结果都好于I类理性人。

  现在使用如图15的混合战略，看看在例2，性别战，斗鸡博弈和智猪博弈中，战略的选择情况：
在例2中，为方便起见，将原支付矩阵先转换成：
　　          乙
          进货不进货
甲进货 (-1,-1) (1,0)
不进货 (0,1) (0,0)
　　　　　　　　　图２３
再设甲乙为Ｉ类理性的概率为p,q:

　　          乙
          进货不进货
甲进货 (-p,-q) (1,q-1)
不进货 (p-1,1) (0,0)
              图２４
可以看到（进货，不进货）是一个可能的均衡策略，但若要使其成为唯一的纳什均衡，还应该要求q-1-q,即q1/2。同理，（不进货，进货）要在p1/2才能成为唯一的纳什均衡。可以理解为，当甲更象是Ｉ类理性人是，此时乙如果认识到这一点，就应该采取进货的战略来应对；而当乙更象Ｉ类理性人时，此时如果甲认识到这一点，应该采取进货战略。这样，就给出了一个选择的指南，避免选择不确定性问题的关键在于是否可以把握好参与方的理性倾向。例4的情形与此类似。而斗鸡博弈中，相应地要求p0.4,q0.4即可确定出应该采取的唯一的纳什均衡策略。
　　再看智猪博弈，得到支付矩阵为
　　            小猪
          按键       等待
大猪按键 (4+p,5q-4) (4p,4q)
等待 (10-p,-10+9q) (0,0)
　　　　　　　　　图２５
　　可以看出，大猪按键是占优战略，那么很容易得出（按键，等待）就是唯一的纳什均衡了。同样可以很圆满地解决选择的不确定性问题。以上通过实例，可以看出这里的两人一次静态博弈的混合战略，能够解决纳什均衡策略选择的不确定性问题，但讨论是从归纳的意义上，没有从理论上严格地证明这一点。

以上就是我们日常生活中，能碰到的三种基本的组合。p和q还可以取０～１间的任何数，在理解上，我们认为任何人对收益的大小的判断都取决于他个人的效用函数，而效用函数本身，是与其看待或对待事物的观点以及客观条件密切相关的。在复杂的现实环境下，对每一次静态博弈，参与人更有可能采取的是一种综合的效用观点，如果在连续多次博弈中，参与人每次都有机会调整p和q的大小，有必要对这样的综合的理性行为进行更深入的探讨。

参考文献：
[1]（英）伊特维尔等.新帕尔格雷夫经济学大词典(M).北京:经济科学出版社,1996.第二卷492-516.
蒋殿春.高级微观经济学(M).北京:经济管理出版社,2000.257-304.
张维迎.博弈论与信息经济学(M).上海:上海人民出版社,1996.14-39.
(美)艾里克•拉斯缪森.博弈与信息-博弈论概论(M).北京:北京大学出版社,2003.3-33.
Julia Dixon，Can International Relations Be Best Understood as A Zero-sum Game?(EB).

上一篇：准确把握省情强化对外开放主战略

下一篇：社制度终结后的浙北农村政治与经济

综合I类/II类理性人的博弈策略

热门论文

热门推荐

推荐问答