• 精选
  • 会员

规范博弈

2020年6月19日  来源:合作的复杂性:基于参与者竞争与合作的模型 作者:(美)罗伯特·阿克塞尔罗德 提供人:yanjia82......

规范博弈

我们用图3.1来描绘规范博弈。当个人(i)有机会背叛,比如说在一次考试中作弊。这个机会伴随着一个已知的被观察到的概率。这件事被观察到,或者说看到,概率是S。我们假设S是0.5,当它发生时,所有其他博弈者都有相同的概率观察到这次背叛。如果博弈者i确实背叛了,他将得到收益T(背叛的诱惑)等于3。其他所有人都受到轻微的伤害(H),这里H=-1。如果博弈者不背叛,没有人获得或损失任何东西。

图3.1 规范博弈

于是该博弈与n人囚徒困境博弈很像(G.Hardin,1968;R.Hardin,1982;Schelling,1978)。在下一步产生新的特点。如果博弈者i确实背叛了,那么其他人中的一部分会观察到背叛,他们会选择惩罚背叛。如果背叛者被惩罚(P),P非常痛苦等于-9,但是因为惩罚本身是有成本的,惩罚者必须支付执行成本(E)等于-2。见表3.1。

表3.1 博弈者冒失水平为2/7与报复水平为4/7的规范博弈收益示例

事件

每一事件收益

事件数

收益

背叛

T=3

1

3

惩罚

P=-9

1

-9

受伤害

H=-1

36

-36

执行成本

E=-2

9

-18

得分



-60

于是一个博弈者的策略就有了两个维度。博弈者i第一个维度是冒失水平(Bi),这决定博弈者何时会背叛。当博弈者发现背叛的收益比他选择冒失的收益高时,也就是说,S<Bi时,会选择背叛。博弈者策略的第二个维度是报复性(Vi),这是博弈者惩罚其他背叛的人的概率。博弈者报复性越强,他或者她就越喜欢惩罚其他有污点的欺骗者。

规范博弈的模拟

对规范博弈的模拟刻画出博弈者的策略如何长期演化。策略的两个维度,冒失和报复,各有7个层次,从0/7到7/7。因为代表8个层次需要3位二进制代码,刻画一个博弈者的策略总归需要6位代码,3位表示冒失程度,3位表示报复程度。

模拟本身分为5个步骤,分别是:

1.人群总归包含20个博弈者,初始策略是从一切可能策略集合中随机挑选的。

2.每个博弈者的分数是由他自己的选择和别的博弈者的选择共同决定的。每个博弈者都有4次背叛的机会。对每一次机会而言,被发现的机会S满足0到1之间的均匀分布。为了表示获得分数的机制,让我们在某一场模拟中从初始人群随意指定一人,称他为李先生。李先生的冒失水平是2/7,报复水平是4/7。李先生在4种不同事件里的收益结果都在表3.1中表示。李先生总共只背叛了一次,因为在4次机会里,只有一次被发现的概率低于李先生的冒失水平2/7。这次背叛暂时得到收益T=3。但是李先生很不幸,他的这次背叛被某个人发现,并且决定惩罚他,这就使得李先生遭受损失P=-9。此外,其他博弈者一共背叛了36次,每次都导致李先生损失H=-1。最后,李先生大约在一半的情况下发现了背叛者,并且以他的报复水平4/7的概率可能性惩罚背叛者。他实施了9次惩罚,每次的执行成本E=-2,最终额外损失了18分。李先生面对这四类事件的收益总分是-60分。

3.所有博弈者的分数都决定以后,那些采取相对成功策略的个人,相对容易地被选择养育更多后代。[1]我们的方法是,平均每个人都只有一个后代,得分标准差比平均水平高1分以上的人有两个后代。标准差比平均水平低1分以上的人,他或她的策略将没有机会复制。为了方便起见,我们通过调整后代数量以维持20人的稳定人群数量。最后一步就是要引入突变机制,使得新策略可能产生并被检验。我们允许每个人的每一位数值都有百分之一的可能发生改变,从而产生新策略。这个突变率比起整个人群里一代人中发生一次突变的概率稍微高一点。

4.步骤2和步骤3都重复100次,以决定人群是如何演化的。

5.步骤1到步骤4重复5次,得到最终模拟结果。

5次模拟的最终结果显示在图3.2中。5个点分别表明人群经过100代的演化,最终的平均冒失和报复程度。可能出现3种完全不同的结果。有一次模拟,最后出现较高的报复程度而几乎没有冒失,这表明局部地建立起抵制背叛的规范。有两次模拟最后导致较低的报复和较低的冒失,还有两次则产生了极高程度的冒失却几乎没有报复——正是反对抵制背叛的规范。这到底是怎么回事?

图3.2 动态的规范博弈

真实的策略长期演化过程由人群中每一代平均冒失和报复程度发生的变化来揭示。为了这项计算,我们每次计算100代人的演化,试验了5次,总共500组数据。把拥有相近的平均冒失和报复水平的人归在一起,他们的平均冒失和报复水平在每一代后记录一次。结果就是图3.2的箭头所示。

现在,差异极大的结果可以进入一个共同的模式。所有这5次模拟都从接近中央的区域开始,平均的冒失和报复程度都接近二分之一。第一个巨大变化就是冒失程度的大幅下降。下降的理由是,当人群中存在足够高的报复水平时,变得冒失要付出极高的代价。一旦冒失程度下降,主要趋势就变成降低报复程度。这个变化的理由是,变得报复或者说惩罚一个被观察到背叛的人需要付出一定的执行成本,个人却得不到任何直接的回报。最后,一旦报复程度下降到接近零,博弈者又可以放心大胆地选择冒失了。结果就是冒失水平开始上升,摧毁了第一阶段建立起来的约束——规范博弈中一个悲惨但是稳定的结果。

这个结果就提出这样的问题,哪些因素促使规范建立?因为问题的关键在于没有人有激励去惩罚背叛者,我们下一部分就来研究一种为报复提供激励的机制。

合作 / 竞争

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000