• 精选
  • 会员

四、从合作的自发生成到合作的复杂性

2020年6月19日  来源:合作的复杂性:基于参与者竞争与合作的模型 作者:(美)罗伯特·阿克塞尔罗德 提供人:yanjia82......

阿克塞尔罗德的三届“重复囚徒困境博弈奥林匹克竞赛”的实验结果发表后,在国际学术界产生了巨大的反响,学术各界的专家们也不断把他们的意见和改进方案反馈给阿克塞尔罗德的试验小组。阿克塞尔罗德本人随后的研究也发现,人类社会中的现实博弈,要比他的三届“重复囚徒困境博弈奥林匹克竞赛”的参赛程序和计算机博弈试验复杂得多。因为,尽管所有的参赛程序都设计得非常精巧,但是这毕竟是一个个设计好了固定模式(“行动方式”是设计好了且固定不变的)的博弈程序,而不是有着道德情感、七情六欲,且人与人之间相互学习、相互影响,并会随着自己情绪和经历的变化而不断改变着自己策略选择的活生生的人。与纷繁复杂的人类社会博弈格局和社会博弈动态相比,那几十种固定不变的设计好了的选择程序,显然还是不够的。于是,在其后的研究中,阿克塞尔罗德开始放松一些假设条件,考虑进去了一些新的变量,并增设了一些新的程序。经过进一步的计算机博弈实验,阿克塞尔罗德还讨论了每一种参赛程序及其博弈结果在现实中的应用及其可能的社会现实的“理论映照”。于是,就有了《合作的复杂性》这本书。

为了进一步考察研究博弈中合作(请注意我这里不是指“合作博弈”)“策略对”的生成、维系、破坏以及恢复机制,以使之更接近于人类社会和社群中的现实情景,阿克塞尔罗德(Axelrod,1997,chap.2)对合作复杂性的研究,首先考虑的就是噪声的处理问题。他这样处理显然是有道理的。因为,在他的所有计算机博弈竞赛程序设计中(甚至在现实中——如果在人类社会的现实博弈真有“一报还一报”这种性格的人存在,并且始终坚持这种做人哲学的话),锦标赛冠军“一报还一报”策略的一个严重问题,就是它对系统中每一种噪音都很敏感。比如说两个“一报还一报”策略碰到一起,如果其中一个偶尔犯了一次错误,那么,它无意中的错误所引发的相互惩罚,就会无穷无尽,从而再也不可能重新建立并维持一个相互合作的模式。为了使其博弈竞赛更接近于社会现实,在新的试验中,阿克塞尔罗德建议采用两种办法来处理这种反馈效应:第一种是对被欺骗的反应不再那么强烈;第二种方法是,对于无意中采用背叛策略的一方来说,要及时注意到对方的反应,不必要再次背叛。除此之外,在具体做法中,国际学术界的其他专家还提供了三种处理噪音的方法:(1)为互惠策略增加宽容:允许一定比例的背叛的博弈者不受到惩罚,很多学者认为这是处理噪音的一个好办法。(2)为互惠策略增加“悔悟”:如果自己无意之中选择了背叛,并引来对手的背叛,那么自己就不要再背叛下去了。这可以使得整个博弈迅速地从某一方的错误中摆脱出来。其主要思想是,如果自己无意的背叛遭到对方的报复,那么自己不能被激怒。(3)设计一种“巴甫洛夫方法”,这一设计方案的基本精神是,在双方使用背叛策略太多因而大家的收益均偏低时,博弈双方会自动调整到合作的策略选择。

在做了上述策略修正和改进后,阿克塞尔罗德的研究小组重新进行竞赛试验和“生态模拟”,新的实验结果表明:(1)“仁慈的”一报还一报策略是一个极为有效的策略,特别当博弈对手并没有故意使用噪音时;(2)当对手故意使用噪音时,带有悔悟的一报还一报策略是更为有效的策略,因为它能够促使博弈双方迅速回到互惠合作,又能避免被对方欺骗、利用、“欺负”和“恶意占便宜”的风险;(b)巴甫洛夫策略并不具备稳健性(robust,一译“鲁棒性”)。通过对上述试验结果进行理论分析,阿克塞尔罗德(Axelrod,1997,p.38)得出了以下结论:“即使在噪音存在的时候,互惠性仍然起着作用,但这要取决于两点:要么存在宽容(当别人莫名其妙地采取背叛策略后仍给予合作的机会),要么存在悔悟(某方采取背叛策略后,当别人也以背叛来报复时,该方即重新开始采用合作策略)。但是巴甫洛夫策略(当得到一个极差的结果以后改变自己原来的选择)并不具备稳健性。”

在为处理噪声问题而做了上述三种处理和改进博弈试验之后,阿克塞尔罗德的试验小组又进一步考虑了多人博弈中合作机制的生成和维系问题,其中首先考虑的就是规范博弈(the norms game)[9]问题,并进一步把他的试验结果运用到现实社会事例——如军备竞赛、商业运作等等——的理论分析中去了。他还进一步研究了规范和元规范(meta-norm)(即不仅是要惩罚那些违背规范的人,还要惩罚那些看到有人违背规范但自己却没有采取行动来惩罚违背规范者的人)、支配、威慑、社会认同、成员身份以及法律等等因素在维系人类合作中的作用。通过对规范生成机制的计算机模拟试验,阿克塞尔罗德(Axelrod,1997,pp.64-65)发现:“首先,冒失(boldness,这里是指在有着某种规范的群体贸然采取违反规范的策略选择。——引者注)的水平显著下降,因为人群充满着惩罚心理。接着,惩罚的数量也慢慢地逐渐下降了,因为惩罚背叛者要付出一定的执行成本,因而对此缺乏直接的激励。一旦惩罚在人群中变得罕见,冒失的平均水平又会有所回升,这样规范就完全崩溃了。而且,崩溃是一个稳定的结果。”这一试验结果,迫使阿克塞尔罗德的研究小组考察那些能够维持规范局部稳定的机制,即元规范博弈。通过对元规范博弈的策略演化过程的模拟试验,阿克塞尔罗德发现,在元规范博弈情况下,博弈者有很强的激励来增加他们的报复水平,以免被别人惩罚,这就导致冒失水平大幅度下降了。于是,他的一个结论是,元规范可以提高和维持人群中的合作水平。

在引入噪声考量和规范博弈之后,阿克塞尔罗德似乎没在技术上和程序上对重复囚徒困境博弈进行进一步的改进试验,反而是回到社会现实和人类历史的分析中,对商业运作、政党联盟、国际贸易、国际政治、军事和外交、工业技术标准的制定、前两次世界大战中的军事联盟的形成,甚至文化的传播等等诸如此类的与人类合作生成和运作相关联的一些现实的历史事件进行了理论分析和建模考察。阿克塞尔罗德的这些后续研究,无疑均有一些理论和现实意义,但是显然已经不是他先前的重复囚徒困境博弈模型计算机模拟试验在技术路线上进行的理论探讨了。

阿克塞尔罗德的后续研究,显然是富有成效的,且具有一定理论与现实意义。然而,他的迄今为止的研究,仍然存在着一些问题。其中最根本的问题是,仅从成本-收益和博弈支付最大化的路径来模型化人类社会的政治、军事、外交,尤其是文化的生成和演化问题,这种分析路径本身,就值得怀疑。当然,这样说并不是要完全否定建立在科学主义和实证主义思想方法论基础之上的当代主流经济学的这类“建模路径”(approach of modeling)的理论进步意义。正如阿克塞尔罗德(Axelrod,1997,p.169)在本书“第七章 文化的散布”中所自我辩解的那样,“一种甚为简单的模型的好处是,不用把问题弄得太过复杂,就能把新事物整合到理论分析中去”。对那些欲求在当代主流经济学(以及近些年开始在西方时尚起来的“主流政治学”)的理论话语世界中经由某种数学建模和“规范化分析”来达致所谓的“科学的”或“实证的”结果的理论路径而言,这类简单模型处理无疑是必要的。但是,如果能够预先省悟到这种理论路径的优长和局限,对当代哲学、社会科学以及经济学的未来发展来说,也许不无助益。

合作 / 竞争

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000