• 精选
  • 会员

关于钟形曲线如何形成的想象实验

2025年1月4日  来源:黑天鹅 作者:纳西姆·尼古拉斯·塔勒布 提供人:goulun70......

请看图15–3所示的弹球机。发射32个球,假设背板足够平衡,使每个球在撞到撞针时落到右边和左边的概率相同。你所预期的结果应该是许多球会落入中间的球道,而且离中间球道越远的球道里的球数越少。

下面做一个想象实验。一个抛掷硬币的人每抛一次都根据硬币的正反面向左或向右走一步。这叫做随机漫步,但并与走路没什么关系。你可以不向左或向右走,而是赢或输1美元,然后记下口袋里的钱。

假设我让你加入一个(合法)赌局,你要么走好运,要么走背运。抛出硬币,正面,你赢1美元;反面,你输1美元。

抛出第一次,你要么赢要么输。

抛出第二次,可能结果的数量翻了一倍:情况1:(赢,赢);情况2:(赢,输);情况3:(输,赢);情况4:(输,输)。每种情况概率相同,一次输加一次赢的组合的概率则翻一倍,因为情况2和情况3[(赢,输)和(输,赢)]导致的结果是一样的。这就是高斯分布的关键。中间部分的结果抵消了,而许多情况落入中间。所以,如果每轮赌1美元,两轮以后你赢或输2美元的概率都是25%,但有50%的概率不赢不输。

释放小球,小球在每个撞针处随机落向左边或右边。图中显示的是最可能的情景,与钟形曲线极为相似(即高斯分布)。亚历山大·塔勒布提供。

图15–3 梅花相位机(简化的)——弹球机

我们再来一轮。第三轮将可能结果的数量再翻一番,所以我们有8种可能。情况1,在第二轮中的(赢,赢),变为(赢,赢,赢)和(赢,赢,输)。我们在前一轮的每一个结果后面分别加上赢和输,情况2变成(赢,输,赢)和(赢,输,输),情况3变为(输,赢,赢)和(输,赢,输),情况4变为(输,输,赢)和(输,输,输)。

我们现在有8种情况,每种概率相同。再次注意你可以把一些中间结果放在一起,从而抵消掉一些输和赢。(在高尔顿的梅花相位机中,一只球先落向左边再落向右边或者相反的情况占大多数,所以最后许多球在中间。)净结果或累积结果如下:(1)3次赢;(2)2次赢,1次输,净赢1次;(3)2次赢,1次输,净赢1次;(4)1次赢,2次输,净输1次;(5)2次赢,1次输,净赢1次;(6)2次输,1次赢,净输1次;(7)2次输,1次赢,净输1次;(8)3次输。

在8种情况中,3次赢出现一次,3次输出现一次,净输1次(1次赢,2次输)出现三次,净赢1次(1次输,2次赢)出现三次。

再来一轮,第四轮,将有16种概率相同的结果。4次赢会出现一次,4次输出现一次,2次赢出现4次,2次输出现4次,不赢不输出现6次。

弹子球例子中的梅花相位机(quincunx,名字来源于拉丁语中的5)显示的是第五轮,有64种可能的结果,很容易跟踪。以上就是弗朗西斯·高尔顿的梅花相位机背后的原理。高尔顿不够懒惰,而且是一个太天真的数学家。假如不是建造这个精巧的装置,他本可以研究更为简单的代数学,或者做一个像这样的想象实验。

我们接着玩。继续抛,直到抛出40次硬币。你可以在几分钟内完成,但我们需要计算器才能算出可能结果的数量,它对我们的简单思维方法而言太困难了。你会有1099 511 627 776种可能的组合,超过1万亿种。不要试图用手算,那是2的40次方,因为每一轮结果翻一倍。(回想一下,我们在第三轮的每一个可能结果后面分别加上赢和输得到第四轮的可能结果,因此可能的结果翻倍。)这些组合中,40次全是正面只出现一次,40次全是反面也只出现一次。其余的都分布在中间结果附近,也就是不赢不输。

我们已经可以看到,在这类随机性中,极端情况极少出现。这超过1万亿种可能中40次全是正面的情况只出现一次。如果你每小时抛40次硬币,连续得到40次正面的概率是如此小,以至于你真要不断地抛才看得到这一结果。假设你不时休息一会儿,去吃东西、与朋友吵架、喝杯啤酒或睡觉,你需要400万辈子才能看到一次40次全正面(或40次全反面)。想一想下面的情况:假设你再加一次,一共41次,要想获得41次全正面将需要800万辈子!从40次到41次使概率降低了一半。这是不具突破性的随机性分析框架的关键特征:出现极端离差的可能性以加速度下降。连续得到50次正面需要40亿辈子才有一次!

我们还没有完全得到钟形曲线,但已经十分危险地接近了。这只是原始高斯分布,但你已经可以看出关键点了。(实际上,你永远不会遇到纯粹意义上的高斯分布,因为它是一种柏拉图化的形式,你只能接近,但不可能达到。)如图15–4所示,熟悉的钟形已经开始显现了。

抛出硬币40次的结果,原始的钟形曲线形成了

图15–4 获得赢面的次数

我们怎样才能更接近完美的高斯钟形曲线呢?将抛硬币的过程细化。我们可以抛40次,每次赌1美元,或者抛4000次,每次赌10美分,然后把结果加总。你可能以为两种情况的风险是一样的,但这是假象。两者的等同性之间存在一点反直觉的障碍。我们将赌局次数放大了100倍,但将赌注缩小了10倍,现在不要问原因,只要假设它们是“等同的”。整体风险是等同的,但现在我们有可能连续赢或输400次。概率是大约1后面120个零分之一,也就是1000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000次中出现一次。

再继续这一过程。我们从抛40次,每次赌1美元,到抛4 000次,每次赌10美分,到抛400000次,每次赌1美分,就离高斯分布越来越近。图15–5显示了–40~40之间的分布,也就是80个绘制点(plot points)之间的分布。下一个会达到8000个绘制点。

抛无穷次硬币

图15–5 更抽象的版本:柏拉图的曲线

我们继续。我们可以抛4 000次,每次赌1/10美分。如果抛400000次,每次赌1/1 000美分呢?作为一种柏拉图化的形式,真正的高斯曲线就是抛无穷次硬币,每次赌无穷小金额的情况。不要试图想象结果,或者试图理解。我们不可能有“无穷小”的赌注(因为如果有,那么我们就处于一个被数学家称为连续的框架中),好在我们有替代品。

我们从简单的赌博转入了某种完全抽象的东西,从普通观察走进了数学的领地。在数学中,事物都有一种纯粹性。

现在,完全抽象的东西是不会存在的,所以请不要试图理解图15–5,只要知道它的用处就行了。把它当做温度计:你不需要明白温度是什么意思也可以谈论它。你只需要知道温度与舒适度(或其他实际考虑)的关系。你不需要关心能够从更专业的角度解释温度的粒子间的碰撞速度。温度,从某种意义上说,是你的大脑将某种外部现象转化为数字的方式。同样,高斯钟形曲线就是使得观察值落入一个正负标准差之间的概率为68.2%的分布。我重复一次:不要试图理解标准差是不是平均偏差——不是,而许多(太多了)使用标准差这一说法的人不明白这一点。标准差只是一个参照数字,只是一种对应性,如果相关现象是高斯现象的话。

标准差经常被称为西格玛。人们还会谈论“方差”(方差是西格玛也就是标准差的平方)。

请注意曲线的对称性。不论西格玛是正是负,结果都是一样。小于–4西格玛的概率与大于4西格玛的概率是一样的,在这里是32000分之一。

读者可以看到,高斯钟形曲线的关键点在于大部分观察值集中在平均水平附近,也就是平均值,随着对平均值的偏离越来越大,偏离的可能性下降得越来越快(呈指数下降)。如果你需要记住一点,那么请只记住偏离平均值时可能性下降的速度。意外变得越来越不可能,你可以安全地忽略它们。

这一特性同样产生了平均斯坦的最高法则:鉴于较大离差的稀少性,它们对总体的影响小到可以忽略不计。

在本章较早部分关于身高的例子中,我以10厘米为偏离单位,展示了随着高度的增加可能性的降低。这些是1倍西格玛的偏差,身高表还提供了以西格玛做计量单位的“西格玛尺度”的例子。

方便的假设

请注意我们在带来原始高斯分布或温和随机性的抛硬币游戏中的核心假设。

第一核心假设:每次抛硬币是独立的。硬币没有记忆。前一次得到正面或反面不会影响下一次得到正面或反面的概率。你不会随着时间的推移变成“更好”的抛硬币手。如果考虑记忆,或者抛硬币的技巧,整个高斯世界都会动摇。

回忆我们在第十四章中谈到的偏好依附和累积优势。两种理论都假设今天的成功会增加你在未来成功的可能性。因此,概率取决于历史,高斯钟形曲线的第一核心假设在现实中不成立。当然,在游戏中,过去的胜利不会意味着未来胜率的提高,但现实生活中不是这样,这就是我对从游戏中学习概率感到担忧的原因。但当胜利带来更多胜利时,与原始高斯曲线的情况相比,你更有可能看到连赢40次的结果。

第二核心假设:没有“疯狂”的跳跃。比如,我们随机步行的步长总是已知的,步长不存在不确定性。我们不会遇到步长剧烈变化的情况。

请记住,假如这两条核心假设中有任何一条不满足,你的步骤(比如抛硬币)的累积结果就不会得到钟形曲线。视实际情况,它们可能导致曼德尔布罗特式的幅度不变的疯狂随机性。

“高斯分布无处不在”

我在现实中遇到的一个问题是,每当我告诉人们高斯钟形曲线在实际生活中并不普遍存在,而只存在于统计学家的头脑中时,他们就会要求我“证明”。这很容易,在后两章我们会看到,但没人能够证明相反的观点。每当我举出一个不是高斯分布的例子,人们就会问我这样做有什么合理性,并且要求“给出现象背后的理论”。我们在第十一章看到了一个富者更富的模型,它可以说明为什么不应使用高斯分布。模型的构想者不得不浪费时间写关于哪些模型可以产生突破性分布的理论,似乎他们必须为此道歉一样。理论!我对这一点有一个认知上的问题,我不明白为什么我们要为世界不能满足某个理想模型找理由,而这个模型只不过是得到了对现实视而不见的人的追捧。

我的做法不是研究哪些模型会产生非钟形曲线的随机现象,因为这样做会犯和盲目理论化一样的错误;相反,我尽可能深入地理解钟形曲线,确定它在哪里适用,在哪里不适用。我知道平均斯坦在哪里。在我看来,经常是(不,几乎一直是)那些使用钟形曲线的人不懂得钟形曲线,因此不得不对其进行合理化。

世界并不存在高斯分布的普遍性,它只是一个思维问题,产生于我们认识世界的方式。

下一章将讨论自然的尺度不变性,以及分形现象的特点。再下一章将探讨高斯分布在社会经济生活中的错误应用以及“制造理论的需要”。

我有时有一点情绪化,因为我花了大量时间思考这个问题。自我开始思考并且进行大量想象实验以来,还从来没有在商业界和统计界碰到过一个能够既接受黑天鹅又抛弃高斯和高斯方法的人。许多人接受我的黑天鹅思想,但无法把它贯彻到最后的结论,也就是你不可能只使用一种叫做标准差(还称之为“风险”)的东西衡量随机性;你不能期待对不确定性的特点做简单总结。要把黑天鹅思想贯彻到底,你需要勇气、努力、透过现象看本质的能力以及彻底理解随机性的愿望。它还需要你不把别人的观点奉若神明。我还发现一些物理学家抛弃了高斯方法,却落入另一个错误:对精确预测模型的轻信,主要是第十四章所讨论的偏好依附——又一种形式的柏拉图化。我无法找到一个有深刻的洞察力和科学技能,把数学当做辅助工具而不是主要目的的人。我花了近15年时间才找到另一位思想家,他把许多天鹅变成了灰色:曼德尔布罗特——伟大的贝诺特·曼德尔布罗特。

[49 ] 本章详细讨论钟形曲线,非专业(或直觉不强的)读者可以跳过这一章。或者,假如你是一个不知道钟形曲线的幸运者,也可以跳过这一章。

[50 ] 为了简便,我对数字做了一点编造。

[51 ] 高斯分布最容易发生错误理解的地方,在于它在尾部事件估计上的脆弱和不足。4西格玛的概率是4.15西格玛的两倍。20西格玛的概率是21西格玛的1万亿倍!也就是说,西格玛值的一个微小差错将导致对概率的极大低估。对于某些事件,我们的错误可以达到上万亿倍。

[52 ] 我在整个第三部分将以一种或另一种形式表达的主要观点如下:当你假设有且只有两种可能的例子时,一切在观念上都变得简单——不具突破性的(比如高斯分布)和其他(比如曼德尔布罗特随机性)。我们之后会看到,抛弃对不具突破性的理论的应用足以消除对世界的某些想象。这就像负面经验主义:通过确定什么是错的来获得知识。

[53 ] 请注意,变量不一定具有无限的突破性;可能存在一个非常遥远的上限,但我们不知道具体在哪里,所以我们把具体情况当做具有无限突破性。技术上讲,一本书的销量不可能超过地球上的居民数量,但这种上限已经大得可以当做不存在处理。而且,谁知道,重新包装一下,或许能够卖给同一个人第二次,或者让这个人把同一部电影看上几遍。

[54 ] 2006年8月我修改本书时,住在马萨诸塞州戴达姆市的一家酒店,在我小时候的一个暑期夏令营附近。在那里,我有点惊异地看到许多有体重问题的人,他们在大厅里走来走去,还造成电梯堵塞。后来发现美国肥胖接纳协会(NationalAssociation of Fat Acceptance)的年会正在那里召开。由于大部分成员都极为肥胖,我无法辨认哪个代表体重最重:在这个极度肥胖的人群中存在某种公平(比我看到的这些人还要胖得多的人已经死了)。我相信,在美国富人接纳协会的年会上,会有一个富人让其他人都相形见绌,即使在超级富人当中,也会有一小部分人占有总体财富的大部分。

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000