混合策略下的收益
我们知道博弈论的基本观点是人们根据他们获得的收益来评估他们和其他人的交易。尽管我们可能没有察觉,但我们每时每刻都在给婚恋关系打分。比如一对伴侣经过漫长的一天后终于见面了。丈夫给了妻子一个灿烂的笑脸,妻子却三心二意地回了一个。他们双方都会对彼此的回应打分。换句话说,他们会把这个微笑和对方的其他微笑以及其他人(甚至想象出来的其他人)的微笑作比较。妻子可能会想:“他给了我一个多么灿烂的笑脸啊。我不能想象其他任何人看到我会这么高兴。”但是丈夫可能会想:“她这次没有以前笑得开心。我甚至能想象其他人打招呼时给我的微笑都比这个显得高兴。”
如果我们用分数来计算这些评价,就可以画出一张小表格,类似我们在第1章中给阿尔和珍妮分配家务活而画的那个。我们将这种类型的表格称为“收益表格”。它显示出每个人在交易中的收益。
我们会用-5到+5之间的数值计分。妻子觉得丈夫的微笑很棒,所以她给了+5分。但是丈夫给了妻子-3分,见表F3—1。
表F3—1 夫妻笑容回报率
博弈论用这种表格分析行为。它创造了不同的情景,或称“博弈”,然后计算每位玩家的相关收益。这取决于他们追求的策略。一种博弈被称为“猎鹿”,这是一种协作,而不是竞争,所以非常符合现在的状况。
海斯特和她的丈夫维克多进入了丛林。他们可以选择猎兔或者猎鹿。他们必须同时做出选择,而不能商量。计分方式如下:猎鹿需要两个人。所以如果一个人在另一个人选择猎鹿时选择去猎兔,那么他就能抓到所有的兔子(+2),猎鹿者就只能空手而归(0)。如果他们能够联合起来猎鹿,就可以分别得到3分。如果他们一起去猎兔,就得分享战利品,所以每个人得1分。得分方式呈现在表F3—2中。(括号中的第一个数字代表维克多的收益,第二个代表海斯特的。)
表F3—2 维克多和海斯特的收益
为了便于分析这个博弈,我们先从维克多的角度看待这个局面。既然海斯特的收益暂时和我们无关,我就在下面的表F3—3用问号(?)表示。
表F3—3 海斯特猎鹿时维克多捕猎的收益
猎鹿比猎兔可以得到更多分,所以我们在这个选择后面打上一个星(*)。在博弈论的语境下,我们说猎鹿比起猎兔对维克多来说更具有“严格优势”。这显然是个更好的选择。
现在,让我们从表F3—4来看看海斯特选择猎兔对维克多的影响。
表F3—4 海斯特猎兔时维克多捕猎的收益
在这种情况下,猎兔比猎鹿对维克多来说更具有“严格优势”。我们现在来从海斯特的角度看一看。对于海斯特来说,如果维克多猎鹿,她的最佳选择也是猎鹿,如表F3—5所示。
表F3—5 维克多猎鹿时海斯特捕猎的收益
如果维克多猎兔,海斯特面临的状况如表F3—6所示。
表F3—6 维克多猎兔时海斯特捕猎的收益
把这些小表格合并成一张大表F3—7。
表F3—7 维克多和海斯特捕猎的收益
你会发现有两个格子都打了星号——这就是玩家的最佳结果。我们把这种双星格子称为博弈的“解”。为什么?因为这表示在这种情况下没有一个玩家能够在只改变自己的情况下做出更好的选择。比如,让我们看都去猎鹿的格子(3*,3*)。如果维克多改去猎兔,他的收益就会从3降到2,不是个好选择。海斯特也会面临同样的结果。(3*,3*)格子就被称为博弈的“纯策略”纳什均衡。没有人能够仅凭自己换用另一种策略就做得更好。
另一个解(1*,1*)也被认为是一个纯策略纳什均衡,尽管玩家双方得到的分数更低。如果维克多改去猎鹿,他的分数就会从1变成0,不是个好策略。对于海斯特来说,擅自改主意也不是一个好选择。
现在我们有了基本原则,让我们看看如果海斯特和维克多一遍遍地进行这个博弈并且使用各种策略搭配会发生什么。重复博弈后的情况有点类似真实婚恋关系中的伴侣,因为他们在生活中有过一次又一次的博弈。例如,他们有一半时间同时选择猎鹿或者猎兔,但实际上我们可以通过彼此的角度找到最佳的重复策略(称为混合策略)。
我们假设维克多决定去猎鹿的可能性为σ鹿(字母“σ”表示可能性),猎兔的可能性为(1-σ鹿)。然后,如果维克多猎鹿的可能性是σ鹿,猎兔的可能性是(1-σ鹿),那么,如果海斯特猎鹿,她的期望收益(EP)则为:
EP海斯特猎鹿=(3)(σ鹿)+(0)(1-σ鹿)
如果海斯特猎兔:
EP海斯特猎兔=(2)(σ鹿)+(1)(1-σ鹿)
现在如果我们设EP鹿=EP兔,那么维克多的行为对海斯特的收益就没有影响,不管他怎么混合选择。所以维克多的混合选择对于海斯特是可接受的(达到了她的无差别点)。
(3)(σ鹿)+(0)(1-σ鹿)=(2)(σ鹿)+(1)(1-σ鹿)
3σ鹿=1+σ鹿
2σ鹿=1
σ鹿=1/2
所以,如果维克多猎鹿的概率为1/2,猎兔的概率也为1/2的话,海斯特就不会在意他的选择。维克多的选择不会影响她的收益。所以混合策略而非纯策略,对维克多来说是一种纳什均衡。
为了达到均衡,类似的计算显示,混合策略在另一种情况下同样有效。如果海斯特猎鹿和猎兔的概率都是1/2,维克多的选择对结果没有影响。所以当每个人猎鹿和猎兔的概率都是1/2时,这些选择就是一个混合策略纳什均衡。