存在噪音的竞赛

2020年6月19日　　来源：合作的复杂性：基于参与者竞争与合作的模型　作者：（美）罗伯特·阿克塞尔罗德　提供人：yanjia82......

存在噪音的竞赛

我们这次分析的环境基础是过去第二轮囚徒困境博弈的计算机竞赛（Axelrod，1984）。这些策略提供了一个充满异质性的环境，各种策略基于不同思路想在囚徒困境博弈中取得较好结果。交互作用的回合次数各不相同，平均下来是151次行动。在这个环境里，我们加入1％的噪音，意味着每一步针对对手选择的策略，都有1％的可能与你的选择相反。虽然这些规则最初设计时都没有考虑到噪音，但它们仍然提供了一个有效的环境，让我们检验新的策略在一个具有噪音的异质性环境里的表现。

每一种新的规则都与63种规则配对竞争，平均分表明它们在这个噪音环境里的表现好坏。[2]宽容性一报还一报策略获得最高分，比任何其他63种策略表现得都好。悔悟性一报还一报策略表现得也很好，比绝大多数策略都好，但不如另外五种策略。巴甫洛夫策略表现很差，得分排在63种策略中的第55位。带有宽容性的巴甫洛夫策略提高也很有限，排在第48位。

为了检验不同噪音水平的影响，我们把4种新策略加入到63种原来的策略中去，在从0.1％到10％的不同噪音水平下，扩展研究竞赛结果。图2.1表示四种新策略在不同噪音水平下的表现。结果表明，无论在什么样的噪音水平下，宽容性针锋相对策略和悔悟性针锋相对策略都表现得很好。巴甫洛夫策略和宽容性的巴甫洛夫策略都表现不佳。在较低水平的噪音环境里，宽容性针锋相对策略比悔悟性针锋相对策略表现要好，但如果噪音水平超过1％，悔悟性一报还一报策略表现得更好。

图2.1　噪音作用的表现

一个生态学模拟

一种更有力的检验是检查较长时间段，在充满噪音的环境里，不太成功的策略比起较成功的策略来，不大会再次被使用。做这项工作的一个好办法就是“生态学分析”（Axelrod，1984，p．48）。在一个生态学分析的环境中，人群中各种人的比例就表示在给定规则下，参与下一代博弈的人口比例，反映了过去一代在这种规则下竞赛竞争的得分。这个过程将重复很多代，采用不同策略规则的人口也随之动态变化，在噪音设置下表现得更好的策略就会在整个环境里占优。生态模拟就形象地刻画出情景，当一个策略在处理噪音方面缺乏效率时，它在人群中所占的比例就越来越小。而那些能够有效处理噪音的策略就会在人群中占到较高的比例。

模拟开始时，67种策略都占据同等比例：其中63种是旧的策略，新加了4种，噪音水平设定在1％。每种规则都进行了2000轮的竞争。图2.2表明，经过这些轮的博弈，最终有6种策略表现较好。R8是我们最初竞赛时排名在第8位的策略，它在初始几百轮的博弈中表现非常好，但随后就不断下降，环境对处理噪音不利的策略非常不利。到了第1000轮博弈的时候，悔悟性一报还一报策略变成领先的策略。它的比例继续增长，最终在第2000轮博弈的时候，它占到总人口的97％。宽容性一报还一报策略在更早时期就达到成功，但随后就开始衰退。而各种版本的巴甫洛夫策略早在几百轮博弈的时候就下降到不到百万分之一了。带有噪音的生态学模拟的赢家很清楚，就是悔悟性一报还一报策略。

注：67种策略分别为63种旧的策略，加上宽容性一报还一报策略、悔悟性一报还一报策略、巴甫洛夫策略以及宽容性巴甫洛夫策略。R3是在最初的竞赛中排行第3位，R4排行第4位，以此类推。结果显示在第2000代时排行前6位者。噪音水平是1％。

图2.2　生态学模拟

策略分析

无论巴甫洛夫策略还是悔悟性一报还一报策略，都带有这样的特征：如果它们自己与自己博弈，都能够迅速地从单个错误中恢复过来。比如两个使用巴甫洛夫策略的人相遇，其中一个因为独立性的错误而背叛，下一轮双方都会选择背叛，但是在接下来的轮次又会恢复合作。如果两个使用宽容性一报还一报策略的人相遇，首先背叛的人在下一轮会陷入悔悟的状态，而对方则会惩罚性地背叛，但在接下来的轮次里双方都会满意，从而继续进行合作。但不幸的是，对使用巴甫洛夫策略的博弈者来说，当双方各自进行一次背叛以后，尽管自己有合作的意愿，但却可能给对方造成一直背叛的激励。[3]无论竞赛研究还是生态模拟分析都表明这一结果。尽管巴甫洛夫策略在碰到同样采取巴甫洛夫策略的博弈者时表现良好，但它的成功是不稳定的。

宽容性一报还一报策略是个有效率的策略，因为它能够停止单个错误引发的连续反应，无论这个错误是对方犯的还是自己犯的。宽容的水平决定了一个错误可能被纠正，并进而恢复合作的速度。问题是宽容性的策略需要在纠正错误的速度和被利用的风险之间达到一个平衡（Axelrod and Dion，1988）。

悔悟性一报还一报策略在纠正自己犯下的错误方面非常有效，但别人犯错时不那么有效。比如说，一个悔悟性一报还一报策略遭遇一个普通的一报还一报策略。普通的一报还一报策略博弈者偶然犯了一个错误，那么双方就会不停地连续报复，直到偶然出现另一次错误。在我们最初的实验环境里存在着63种策略，并非专门为检查噪音而设计。当噪音水平低于1％时，悔悟性一报还一报策略的表现仅次于宽容性一报还一报策略。另一方面，在我们的生态模拟环境下，当整个环境充满噪音时，悔悟性一报还一报策略会变得非常非常有效率。当人们逐渐习惯噪音存在以后，悔悟性策略变得越来越有效率。在这样的环境里，纠正各人自己的错误是非常重要的，因为你碰到的博弈对手也越来越擅长纠正他们自己的错误。

合作 / 竞争

如涉及版权，请著作权人与本网站联系，删除或支付费用事宜。