• 精选
  • 会员

博弈论一动态决策法

2019年5月18日  来源:模型思维 作者: 提供人:cazhan94......

为什么麦当劳和肯德基都挤在一起开店呢?我们来看一组数据

14思维模型:博弈论一动态决策法

成都市0-250米竞品门店数量占比达到了恐怖的75%,几乎只要有麦当劳的地方就有肯德基,可见其竞争的激烈程度,为什么出现这种结果,难道是兄弟哥俩好,绝对不是,是残酷的市场竞争博弈所造成的。在每个城市的竞争博弈中都找到了一种均衡的状态。到底什么是博弈?他们是如何博弈的?

下面我们一起来认识一下博弈论。

认识博弈论

现代经济博弈论是在20世纪50年代由匈牙利/美国著名数学家冯·诺依曼的经济学家奥斯卡·摩根斯坦引入经济学的,目前已成为经济分析的主要工具之一,对产业组织理论、委托代理理论、信息经济学等经济理论的发展做出了非常重要的贡献。

从1994年诺贝尔经济学奖授予3位博弈论专家开始,共有7届的诺贝尔经济学奖与博弈论的研究有关。

、博弈论概念

博弈论是研究相互依赖、相互影响的决策主体的理性决策行为以及这些决策的均衡结果的理论。

、博弈论4要素

参与人:在一场竞赛或博弈中,每一个有决策权的参与者成为一个局中人。只有两个局中人的博弈现象称为“两人博弈”,而多于两个局中人的博弈称为“多人博弈”。

14思维模型:博弈论一动态决策法

策略:一局博弈中,每个局中人都有选择实际可行的完整的行动方案,即方案不是某阶段的行动方案,而是指导整个行动的一个方案,一个局中人的一个可行的自始至终全局筹划的一个行动方案,称为这个局中人的一个策略。

得失:一局博弈结局时的结果称为得失。每个局中人在一局博弈结束时的得失,不仅与该局中人自身所选择的策略有关,而且与全局中人所取定的一组策略有关。

均衡:均衡是平衡的意思,在经济学中,均衡意即相关量处于稳定值。在供求关系中,某一商品市场如果在某一价格下,想以此价格买此商品的人均能买到,而想卖的人均能卖出,此时我们就说,该商品的供求达到了均衡。所谓纳什均衡,以约翰·纳什命名,所有参与者都不想改变自己的策略的这样一种相对静止的状态

14思维模型:博弈论一动态决策法

、博弈论研究的假设

决策主体是理性的,最大化自己的利益;

完全理性是共同知识;

每个参与人被假定为对所处环境及其他参与者的行为形成正确信念与预期。

、博弈论的分类

14思维模型:博弈论一动态决策法

合作博弈和非合作博弈:合作博弈和非合作博弈的区别在于相互发生作用的当事人之间有没有一个具有约束力的协议,如果有,就是合作博弈,如果没有,就是非合作博弈。经济学家们所谈的博弈论一般是指非合作博弈,由于合作博弈论比非合作博弈论复杂,在理论上的成熟度远远不如非合作博弈论。

静态博弈、动态博弈两类:静态博弈是指在博弈中,参与人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动;动态博弈是指在博弈中,参与人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。通俗的理解:"囚徒困境"就是同时决策的,属于静态博弈,下棋就是动态博弈。

完全信息博弈和不完全信息博弈:完全博弈是指在博弈过程中,每一位参与人对其他参与人的特征、策略空间及收益函数有准确的信息。不完全信息博弈是指如果参与人对其他参与人的特征、策略空间及收益函数信息了解的不够准确、或者不是对所有参与人的特征、策略空间及收益函数都有准确的信息,在这种情况下进行的博弈就是不完全信息博弈。

14思维模型:博弈论一动态决策法

零和和非零和博弈:零和博弈,又称零和游戏,属非合作博弈。指参与博弈的各方,在严格竞争下,一方的收益必然意味着另一方的损失,博弈各方的收益和损失相加总和为“零”,双方不存在合作的可能。也可以说:自己的幸福是建立在他人的痛苦之上的,二者的大小完全相等,因而双方都想尽一切办法以实现“损人利己”。零和博弈的结果是一方吃掉另一方,一方的所得正是另一方的所失,整个社会的利益并不会因此而增加一分。赌博就是零和博弈。

非零和博弈是一种合作下的博弈,博弈中各方的收益或损失的总和不是零值,自己的所得并不与他人的损失的大小相等,自己的幸福也未必建立在他人的痛苦之上,博弈双方存在“双赢”的可能,进而达成合作。

例如:一天晚上,狐狸踱步来到了水井旁,低头俯身看到井底水面上月亮的影子,它认为那是一块大奶酪。这只饿得发昏的狐狸跨进一只吊桶下到了井底,把与之相连的另一只吊桶升到了井面。下井后,它才明白这“奶酪”是不能吃的,自己已铸成大错,处境十分不利,长期下去就只有等死了。

两天两夜过去了,没有一只动物光顾水井,时间一分一秒地不断流逝,银色的上弦月出现了。沮丧的狐狸正无计可施时,刚好一只口渴的狼途经此地,狐狸不禁喜上眉梢,它对狼打招呼道:“喂,伙计,我免费招待你一顿美餐你看怎么样”看到狼被吸引住了,狐狸于是指着井底的月亮对狼说:“你看到这个了吗?这可是块十分好吃的奶酪,我已吃掉了这奶酪的那一半,剩下这一半也够你吃一顿的了。就请委屈你钻到我特意为你准备好的桶下到井里来吧。”狐狸尽量把故事编得天衣无缝,这只狼果然中了它的奸计。狼下到井里,它的重量使狐狸升到了井口,这只被困两天的狐狸终于得救了。

这个故事中狐狸和狼所进行的博弈,我们称为零和博弈。零和博弈是一种完全对抗、强烈竞争的对局。在零和博弈的结局中.参与者的收益总和是零(或某个常数),一个参与者的所得恰是另一参与者的所失。狐狸和狼一只在上面,一只在下面,下面的这一只想上去,就得想办法让上面的一只下来。

但是通过博弈调换位置以后,仍然是一只在上面.一只在下面。如果狼明白狐狸掉到了井里,动了憾隐之心,搬来一块石头放到上面的桶中,完全可以利用石头的重量把狐狸拉上来。或者,如果狐狸担心狼没有这种乐于助人的精神,通过欺骗到达井口以后,再用石头把狼再拉上来。这两种方式的结局是两个参与者都到了井上面,那么双方进行的就是一种正和博弈。

囚徒困境

警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人有罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:

若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。

若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。

若二人都互相检举(互相“背叛”),则二人同样判监2年。

14思维模型:博弈论一动态决策法

若对方沉默、我背叛会让我获释,所以会选择背叛。

若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。

二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。

这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳,这种结果叫做帕累托最优,在不损害他人利益的情况下,使得自己的利益最大化。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判监均比合作为高,总体利益较合作为低。这就是“困境”所在。

在这种情况下没有一个参与者可以通过独自行动而增加收益,例如,如果甲独自改变策略进行合作,乙仍然是背叛,那么他的收益会从-2下降到-10,这与他的初衷增加收益相悖,所以他不会改变策略。

如果关了两年后,甲乙都被释放了,但是又都因为盗窃被捕,如果发生这样会一直重复出现的困境,那么,甲乙会考虑作出背叛行为后可能遭到的报复,所以,最有可能进行合作,在无数次进行这个重复博弈的时候,他们的纳什均衡会趋向于帕累托最优

囚徒困境的启示

案例1、一个和尚担水吃,三个和尚没水吃。就是典型的囚徒困境。

案例2、牧民放牧的囚徒困境,每个牧民都希望多放几只羊,而草原上的草是有限的,如果我当雷锋,少放几只羊,肯定就吃亏了,所以大家以后都多放羊,最后草原资源枯竭,谁都得不到好处。

案例3、排污企业的囚徒困境。如果在一个城市里有2家相同的化工厂,由于环保局的要求都安装了排污设备并严格执行排污标准,每天要消耗10万元,这样自然会使产品价格提高,进而失去市场竞争力。

此时会有三种情况发生

1、大家都严格执行排污标准,共同把产品价格提高,双方不会有大影响。

2、一家遵守标准,一家偷偷晚上偷偷排污水,一方受益,一方损失。

3、大家都不遵守标准,晚上偷偷排污水,双方都得益。

如果环保管的不太严,每家企业的最优策略就是晚上偷偷排污水,这就是一个纳什均衡,但是这样会影响环境,只有政府强行管制,让大家都严格执行排污标准,才能实现帕累托最优。

囚徒困境在生活中比比皆是,例如挤公交地铁,插队事件,如果每个人都为了个人利益最大化插队,反而使自己的利益最小化。

智猪博弈

在博弈论经济学中,“智猪博弈”是一个著名的纳什均衡的例子。假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽,另一头安装着控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,但是谁按按钮就会首先付出2个单位的成本,若小猪去按,大猪等在槽边,大小猪吃到食物的收益比是9∶1;同时去按,同时到槽边开吃,收益比是7∶3;如果大猪去按,小猪等在槽边,收益比是6∶4。那么,在两头猪都有智慧的前提下,最终结果是小猪选择等待。支付矩阵如下

14思维模型:博弈论一动态决策法

实际上小猪选择等待,让大猪去按控制按钮,而自己选择“坐船”(或称为搭便车)的原因很简单:在大猪选择行动的前提下,小猪也行动的话,小猪可得到1个单位的纯收益(吃到3个单位食品的同时也耗费2个单位的成本,以下纯收益计算相同),而小猪等待的话,则可以获得4个单位的纯收益,等待优于行动;在大猪选择等待的前提下,小猪如果行动的话,小猪的收入将不抵成本,纯收益为-1单位,如果小猪也选择等待的话,那么小猪的收益为零,成本也为零,总之,等待还是要优于行动。

“智猪博弈”故事给了竞争中的弱者(小猪)以等待为最佳策略的启发。在博弈中,每一方都要想方设法攻击对方、保护自己,最终取得胜利;但同时,对方也是一个与你一样理性的人,他会这么做吗?这时就需要更高明的智慧。博弈其实是一种斗智的竞争。

智猪博弈的启示

1、搭便车策略

在小企业经营中,学会如何“搭便车”是明智的选择。在某些时候,如果能够注意等待,让其他大的企业首先开发市场,有所不为才能有所为,等待产业市场中出现具有赢利能力新产品、继而大举仿制牟取利润的企业。

例如:中国很多山寨手机厂商采用的全是搭便车,等苹果公司出现新产品时,山寨厂商很快就可以山寨出外形一样的手机,可以达到以假乱真的目的。还有国内的很多汽车厂商,采用的策略是逆向开发,完全模仿国外汽车,就是搭便车策略。

2、如何消除搭便车?

智猪博弈可以采用减量加移位方案,投食量仅为原来的一半,但同时将投食口移到按钮附近。那么大猪小猪将会争着踩按钮。等待者不得食,多劳者多得食。对于规则设计者来说,减量移位方案是一个最好的方案。成本不高而收获很大。企业要建立多劳多得,少劳少得的管理制度,防止大锅饭的出现,国家也要建立知识产权保护的制度,保护创新者的利益不受损失,同时也要给予小企业的政策优惠,才能保证经济的良性发展,达到帕累托最优。

海滩占位博弈

日常生活中,如果我们仔细观察,就会发现在同一条街上两家超市经常会开在一起,你在沙滩游玩的时候,也往往能发现两家冷饮店相依为邻——这跟肯德基麦当劳经常比邻开店的道理其实是一样的。

把肯德基和麦当劳的分析简化,在一条长为1000m的街上,

14思维模型:博弈论一动态决策法

第一次博弈:二者分别开在两个端点上,各占500m范围的顾客。

如果麦当劳向中间移动250m,它的顾客范围就变成了250+(750/2)=625m

肯德基也发现了这个规律,向中间移动了250m,二者的顾客范围重新变成了各自占据500m的顾客范围。

第二次博弈:在原来基础上,麦当劳继续移动500m位置,占据顾客范围成了:500+(500/2)=750,于是肯德基继续跟着也移动了500m位置,各自占领500m,经过多次博弈之后,双方都到了中点处,都分得了500m的顾客范围。

有人可能会问,为什么不在线上的250m和750m处选址呢,这样既方便了街上的每一个地点的顾客,还能确保肯德基麦当劳各自都包揽一部分顾客的生意?经过上面n次博弈的分析,我们可以知道,这两个点的均衡状态是不稳定的,如果由一方改变选址,就会使自己获益,所以会不断竞争,为了比对手获得更多的客流量,一旦一方扩张,另一方就会马上做出应对策略,这就是博弈的精妙之处了。

支付矩阵如下:

14思维模型:博弈论一动态决策法

这样我们就可以理解为什么开店都喜欢扎堆了,就是多次博弈的结果,如果以后谁要是开饭店,一定要学习一些博弈论,帮助自己找到自己的最优策略。

电视台选择最符合大众口味的节目放在黄金时段播放,就是为了获得最大量的观众。

总结:

企业角度:博弈论与传统咨询工具相结合,可以帮助企业开启解决战略定位、股权分配、股权融资、价值塑造、商业模式等疑难杂症的新视角。

个人角度:换位思考,想让自己的决策最优,先考虑给定自己的决策对方如何最优,从合作共赢的角度出发,互惠互利,保证多方利益的均衡,才能走向良性的发展轨迹,达成帕累托最优。14思维模型:博弈论一动态决策法

思维模型 / 博弈论 / 零和博弈 / 纳什均衡 / 帕累托最优 / 囚徒困境 / 智猪博弈 / 海滩占位

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000