• 精选
  • 会员

皮尔逊:狂热者的愤怒(2)

2020年7月10日  来源:为什么:关于因果关系的新科学 作者:[美]朱迪亚·珀尔;[美]达纳·麦肯齐 提供人:kangtao76......

皮尔逊注意到,发现显然不合理的相关关系是相对容易的。例如,在皮尔逊之后的时代,有人曾提到过这样一个有趣的例子:一个国家的人均巧克力消费量和该国诺贝尔奖得主的人数之间存在强相关。这种相关性显然是很愚蠢的,因为不管我们怎么想象,吃巧克力看起来都不可能导致我们获得诺贝尔奖。一个更可靠的解释是,在富裕的西方国家,吃巧克力的人更多,而且诺贝尔奖得主也是优先从这些国家中选出的。但这是一个因果解释,对皮尔逊来说,这不是科学思维所必需的要素。对他而言,因果关系只是“对于现代科学中一些深奥难解的事物的一种迷信”,相关性才应该是科学理解的目标。但这种观点让他在不得不解释为什么一个相关性是有意义的而另一个就是“伪相关”时陷入了一种尴尬的境地。他解释说,真正的相关性能够表明变量之间的一种“有机关系”,而伪相关则不能。但什么是“有机关系”呢?这难道不是因果关系的另一种叫法?

皮尔逊和尤尔一起收集了几个伪相关的例子。其中一类典型的例子如今被称为“混杂”,巧克力—诺贝尔奖的故事就属此类。(经济情况和地理位置是混杂因子,或者说是巧克力消费与诺贝尔奖得奖频率的共因。)类似的“荒谬相关”的另一种类型往往出现在时间序列数据中。例如,尤尔发现英国某年的死亡率与由英国教堂主持婚礼的婚姻在总体中的比例之间有着极高的相关性(0.95)。这难道说明上帝要惩罚婚姻幸福的信徒吗?不!这只不过是两种独立的历史趋势在同一时间出现而已:该国的死亡率正在下降,同时,英国教会的成员人数也在下降。由于两者同时下降,因此两者之间出现了正相关,但两者并没有因果联系。

早在1899年,皮尔逊就发现了可能是最有趣的一种“伪相关”——当两个异质总体合二为一时,“伪相关”就出现了。皮尔逊和高尔顿一样,也是一个狂热的人体数据收集者,他获得了来自巴黎地下墓穴的806块男性颅骨和340块女性颅骨的测量数据(见图2.5)。他计算了颅骨长度和宽度的相关性。在只考虑男性或女性的数据时,二者的相关性可以忽略不计,也就是说颅骨长度和宽度之间没有显著的相关性。但在把两组不同性别的数据合并后,二者的相关系数就变成了0.197,这一数值通常被解读为较为明显的正相关。这一结论在某种意义上也是可以理解的,因为颅骨长度短可能表明它属于女性,因而其宽度可能也相对较窄。然而,皮尔逊认为这只是一个统计假象。相关系数为正这一事实并没有生物学意义或“有机”含义,而仅仅是不恰当地将两个不同的总体结合在一起的结果。

图2.5 卡尔·皮尔逊与巴黎地下墓穴的颅骨(资料来源:由达科塔·哈尔绘制)

这个例子是一种更为普遍的现象的一个特例,该现象被称作“辛普森悖论”。我们将在第六章讨论在何种条件下我们应该对数据进行分割,并解释为什么将异质总体的数据结合起来处理时会产生伪相关。但现在,让我们先看看皮尔逊是怎么说的:“对于那些坚持把所有相关关系视为因果关系的人来说,这一事实定然令人震惊——通过人工混合两个类似种属,我们就能让两个毫不相关的特征A和B之间产生相关性。”正如斯蒂芬·施蒂格勒的评论所言:“我禁不住猜测,他自己可能才是第一个对此感到震惊的人。”可以看出,皮尔逊实质上是在自责自己从因果关系的角度思考问题的倾向。

如果现在透过因果透镜再来看一下这个例子,我们只能说,皮尔逊真是错失了良机!在理想的世界里,这样的例子可能会促使一位天才科学家思考自己为此而震惊的原因,继而创建出一种科学方法用以预测在何种情况下这样的伪相关会出现。至少,他应该能够向大家揭示何时可以聚合数据,何时不可以。但皮尔逊给他的追随者提供的唯一指导意见就是“人造”的聚合(无论它意味着什么)都是不好的。讽刺的是,使用因果透镜,我们现在已经意识到了,在某些情况下,正确的分析结果只能来自聚合数据,而非来自分组数据。因果推断的逻辑能够在事实上告诉我们应该信任哪一个结果。我多么希望皮尔逊能与我们一起分享这一发现!

皮尔逊的学生并不都是对他亦步亦趋的。尤尔就因为一些其他的原因与皮尔逊闹翻了,他们在学术研究上就此分道扬镳。起初,尤尔属于强硬派阵营,相信相关性能够揭示我们在科学领域所需要理解的一切。然而,当他试图解释伦敦的贫困状况时,他的看法发生了改变。1899年,他致力于研究“院外救济”(指不通过救济院向贫困家庭发放救济)是否提高了贫困率这一问题。数据显示,得到较多院外救济的区域反而有着较高的贫困率。但尤尔发现,这种相关性可能是伪相关,因为这些地区可能有更多的老年人,而这些人往往会越来越穷。不过,他紧接着就发现,即使将老年人占比相同的地区进行比较,院外救济和贫困率的相关性仍然存在。这一发现鼓励了他勇敢说出自己的结论:贫困率的提高可以归因于院外救济。但是,在“越界”做出了这个因果判定后,他再次回归“正轨”。在论文的一个脚注里,他写道:“严格说来,‘归因于’应当读作‘与……相关’。”这句话为他之后的几代科学家设定了一个表述模式:虽然在心里想的是“归因于”,但在论文写作时要把它说成“与……相关”。

皮尔逊和他的追随者对因果关系深怀敌意,而像尤尔这类不坚定的追随者害怕与他们的领袖正面对抗,这就为大洋彼岸的另一位科学家提供了机会,对回避因果的文化首次提出了正面挑战。

因果推断

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000