• 精选
  • 会员

5 放大数据

2020年7月20日  来源:人人都在说谎——赤裸裸的数据真相 作者:[美]赛思·斯蒂芬斯–达维多维茨 提供人:heidong86......

我弟弟诺厄(Noah)比我小4岁。很多人第一次见到我们时,都会觉得我俩实在太像了(图5–1是我俩的照片)。我们说话声音都很大,同样脱发,而且都很难保持房间整洁。

我们也有不同之处:我花钱精打细算,诺厄却只买最好的。我喜欢伦纳德·科恩和鲍勃·迪伦(Bob Dylan),而诺厄喜欢的则是“蛋糕”乐队(Cake)和贝克乐队(Beck)。

也许我们之间最显著的差别就是我们对棒球的态度。我痴迷棒球,尤其钟爱纽约大都会队,这一直以来也算是我主要的身份标签;诺厄则认为棒球无聊至极,对这项运动深恶痛绝一直是他重要的身份标签。[1]

图5–1 我和我的弟弟

住在同一座城市、父母相同、基因类似的两个人,对棒球的态度为什么会如此天差地别呢?是什么决定了我们成为什么样的成年人?更根本的问题是,诺厄怎么了?发展心理学中有一个正在迅速发展的领域,该领域挖掘出大量的成人数据库,并将它们与关键的童年事件联系起来,它可以帮助我们解决这一问题和相关的疑问。我们可以将这种越来越多地运用大数据来回答心理学问题的领域称为“大心理学”(Big Psych)。

为了了解大心理学的工作原理,一起来看看我曾做过的一项研究吧——童年经历会对你支持哪支棒球队(或者你是否支持任何球队)产生何种影响。[2]在这项研究中,我使用了脸谱网上带有“喜欢”某一棒球队标签用户的数据。[上一章中,我注意到脸谱网数据可能会在敏感话题上产生严重误导。在这项研究中,我认为没有谁会(哪怕是一个费城球迷也不会)因在脸谱网上承认自己对某个球队的喜爱而感到难为情。]

我下载了“喜欢”纽约两支棒球队的每个年龄段的男性数量。图5–2是按出生年份计算的大都会队球迷的百分比。

图5–2 喜欢纽约大都会队的男性比例(按出生年份计算)

百分点越高,该年出生的大都会队球迷就越多。纽约大都会队在1962年和1978年出生的人群中很受欢迎,球队的人气也随之产生波动起伏。我猜想棒球迷们可能会知道这里发生了什么。大都会队只在1969年和1986年赢过两次世界职业棒球大赛。大都会队获胜时,这些人7~8岁。因此,对大都会队球迷(至少对男孩)来说,一个重要的猜测就是大都会队是否在他们七八岁的时候赢得了世界职业棒球大赛的冠军。

事实上,我们可以进一步扩展这个分析。我从脸谱网上下载了一些信息,这些信息表明美国职业棒球大联盟里的每支球队在各个年龄段分别有多少球迷“喜欢”它们。

我发现,1962年出生的巴尔的摩金莺队球迷和1963年出生的匹兹堡海盗队球迷的数量也多得异乎寻常。这两支球队夺冠时,这些球迷还都是8岁的孩子。实际上,我计算了所有我研究过的球队的巅峰时期,然后计算出了这些球队球迷当时的年龄,得出图5–3。

图5–3 球队夺冠时儿童球迷的年龄与其成年后成为“死忠粉”的概率之间的关系

我们再一次看到,决定一个人成年后成为哪支球队“死忠粉”最关键的时间节点,是在他8岁左右的那一年。总体而言,男孩在5~10岁时最容易喜欢一支球队。球迷决定要支持哪支球队时,球队在他8岁时夺冠要比在他19岁或20岁时夺冠重要8倍,因为到那时,他要么已经终其一生都喜爱那支球队,要么就一点儿都不喜欢了。

你可能会问,女棒球迷呢?这种模式对女棒球迷则不那么明显,但是女性喜爱一支球队的高峰年龄似乎是22岁。

这是我最喜欢的一项研究。它涉及两个我最喜爱的话题:棒球和我成年后不满情绪的来源。我从1986年开始对棒球非常着迷,一直在苦苦支持纽约大都会队。诺厄有先见,4年后才出生,因此并没有像我一样受罪。

现在,棒球并不是世界上最热门的话题,我的博士生导师们也反复向我强调这一点,但是这种方法可能会帮助我们解决类似的问题,比如人们如何培养自己的政治偏好、性取向、音乐品位和理财习惯。(我可能对我弟弟关于后两个问题的古怪想法的由来感兴趣。)我猜测,人们会发现自己成年后的很多行为、兴趣乃至那些被视为关乎人性的东西,都能用我们出生的年份发生的随机事件和我们小时候的某些关键年份发生的事情来解释。

事实上,政治偏好的由来分析已经有了一些进展。数据分析公司Catalist的首席科学家亚伊尔·吉察(Yair Ghitza)和哥伦比亚大学的政治学家兼统计学家安德鲁·格尔曼(Andrew Gelman)曾经试图测试传统观念——大多数人一开始都支持自由派,但会随着年龄的增长变得越来越保守。这就是丘吉尔常引用的一句名言:“弱冠之年而不轻狂壮志者,非有心也;不惑之年而不稳重内敛者,非有智也。”

吉察和格尔曼研究了60年的调查数据,采用了30多万个投票偏好的观察结果。他们发现,与丘吉尔的说法正相反,青少年有时偏向自由,有时又偏向保守。中年人和老年人也是如此。

这些研究人员发现,政治观点的形成与我们对体育球队的偏好并没有什么不同。人的一生中有一段重要时期,即14~24岁,很多美国人会依据现任总统的受欢迎度形成自己的政治观点。若现任总统是位人气颇高的共和党人或不得人心的民主党人,很多年轻人便会深受影响,成为共和党人;反之,若现任总统是位不受欢迎的共和党人或深得民心的民主党人,那这个易受影响的群体又会倒向民主党阵营。

总的来看,在这一关键时期形成的这些观点会持续一辈子。

要弄清楚这是怎么一回事,将出生于1941年和10年之后出生的美国人做一比较便一目了然了。

第一个群体的那些人是在艾森豪威尔总统任期内长大的,艾森豪威尔是一位颇受欢迎的共和党人。20世纪60年代初,尽管这群“40后”当时还不到30岁,却强烈倾向于共和党。随着年龄的增长,他们对共和党的支持始终坚定。

10年之后(即“婴儿潮一代”)出生的美国人,则经历了好几任总统,包括非常受欢迎的民主党人肯尼迪、一开始很受欢迎的民主党人约翰逊与最终引咎辞职的共和党人尼克松。这群“50后”中很多人一生都倾向于自由派。

有了这些数据,研究人员就可以判断人们确立政治观点最重要的一年:18岁。[3]

他们发现这些不可磨灭的印迹影响巨大。根据模型估计,艾森豪威尔任职期间,美国1941年出生的共和党人提高了10个百分点。肯尼迪、约翰逊和尼克松则为1952年出生的民主党人带来了7个百分点的增势。

我曾明确表示,我对调查数据持怀疑态度,但这里审查的大量答复给我留下了深刻印象。事实上,一项小小的调查并不足以完成这项研究。研究人员需要从大量调查中搜集数以万计的观察数据,以此来观察人们的政治偏好如何随年龄的增长而变化。

数据大小对我的棒球研究也至关重要。我不仅要关注每支球队的球迷,而且要研究每个年龄段的人。这样做需要数百万的观察数据,我通常从脸谱网和其他数据源搜集这类数据。

这就是大数据的规模之大真正发挥作用的地方。在照片中你需要很高的像素,方能清晰地放大照片的一小部分。同样,你也需要在数据集中进行大量的观察,方能清晰地放大数据的一小部分——例如,大都会队在1978年出生的美国人中受欢迎程度如何。对几千人进行的一项小型调查不会得到这么充分的大样本。

这就是大数据的第三大功能:它使我们能够对数据集的一小部分进行有意义的放大,从而获得有关人性的新见解。除年龄外,我们还可以放大其他维度。如果有足够的数据,我们就能了解在特定城镇和城市的人们如何做事,也可以了人们在一小时乃至一分钟内的生活状态。

本章将会着重描写人类行为。

我们的县、市和镇中到底在发生着什么

事后看来,这事着实令人吃惊,但时任哈佛大学教授的拉杰·切蒂(Raj Chetty)和一个很小的研究团队的确率先掌握了一个相当大的数据集——所有美国人自1996年以来的纳税记录,他们并不确定会从中发现什么。美国国税局已经将这些数据转交给他们,因为他们认为这些研究人员或许能够利用这些数据帮助他们澄清税收政策的作用。

事实上,切蒂及其团队最初使用这些大数据的几次尝试都走进了死胡同。他们调查了各州和联邦税收政策的影响,结论与其他所有人通过调查得出的结论基本一致。或许切蒂通过使用数以亿计的美国国税局数据得出的答案更加精确一点,但仅仅是更精确一点,结论与所有人的都相同,这并不算什么重大的社会科学成果。顶尖期刊急于发表的并不是这类研究成果。

此外,整理和分析所有的国税局数据非常耗时。切蒂及其团队沉迷于数据,得出的结论与其他所有人一样,花费的时间却更长。

看起来大数据怀疑论者是对的。理解税收政策并不需要数亿美国人的数据,一项万人调查就足够了。因此,切蒂和他的团队很沮丧是可以理解的。

最终,研究人员意识到了他们的错误。切蒂解释说:“除了有更多的数据外,大数据能完成的任务绝不仅仅是通过那些调查就能做的事。”[4]当时他们正在就已经搜集到的海量数据提出一些小数据问题。“大数据真的可以让你采用完全不同于参与调查的做法。”切蒂补充说,“比如,你可以放大地理位置。”

换句话说,有了数亿人的数据,无论大小,切蒂及其团队都能够发现城市、小镇和社区之中存在的模式。

切蒂报告自己使用全体美国人的纳税记录得出初步结果的时候,当时还是哈佛大学研究生的我在一间研讨室里聆听了他的陈述。社会科学家将他们的工作称为观测,即他们有多少个数据点。如果一名社会科学家正在针对800人进行一项调查,他就会说:“我们有800份观测数据。”如果他正在进行一项有70人的实验室实验,他会说:“我们有70份观测数据。”

切蒂绷着脸说:“我们有12亿份观测数据。”听众却神经质地咯咯直笑。

切蒂和他的合著者在那间研讨室里以及之后的一系列论文中,向我们提出了有关美国如何运作的重要新见解。

想想这个问题:美国是一个充满机遇的国家吗?如果你的父母不富裕,你自己还有机会发财吗?

要回答这个问题,传统的方法是观测一个美国人的代表性样本,然后与其他国家的类似数据进行比较。

表5–1是各个国家关于机会平等的数据。问题是:如果父母处于收入分配最底层的20%,那么孩子长大后进入收入分配前20%的概率有多大?

表5–1 出身贫穷的人变富的概率(部分国家)

正如你所见,美国的得分并不高。

但是,这个简单的分析忽略了真实的情况。切蒂的团队放大了地理位置。他们发现,概率的大小取决于你出生在美国的什么地方(见表5–2)。

表5–2 出身贫穷的人变富的概率(美国部分地区)

在美国的一些地区,一个穷人家孩子成功的机会和世界上任何一个发达国家的一样大。在其他地方,这样的机会却比世界上任何一个发达国家的都要小。

这种模式绝不会在一项小型调查中出现,小型调查也许只包含夏洛特和圣何塞两地有限的几个人,因此你也无法像大型数据分析那样对样本进行放大研究。

事实上,切蒂的团队可以进一步放大数据,因为他们有足够多的数据(每一个美国人的数据),他们甚至可以放大从一个城市搬到另一个城市的小群体,以查看以下情况如何影响搬迁者的前途:那些人从纽约搬到洛杉矶、从密尔沃基搬到亚特兰大、从圣何塞搬到夏洛特。这一做法使他们能够测试因果关系,而不仅仅是相关性(这一特征我会在下一章中讨论)。确实,在成长的岁月里搬到合适的城市,会对一个人产生巨大的影响。

那么美国是一个“充满机遇的国家”吗?

答案既不是肯定的,也不是否定的。答案是:在某些地方是,在某些地方不是。

正如几位作者所写的那样:“更准确地说,美国是一个社会的集合,有些地方‘充满机遇’,跨代流动性大,其他地方却几乎没有任何一个孩子能摆脱贫穷。”

那么,美国收入流动性高的地区怎么样呢?是什么让一些地区能在更好地平衡竞争环境的同时,也让一个穷人家的孩子过上美好的生活呢?答案是,在教育上花费更多的地区为贫困儿童提供了更好的机会。信教人士多、犯罪率低的地方做得更好,黑人多的地区则不尽如人意。有趣的是,这不仅对黑人孩子有影响,而且对生活在那里的白人孩子也有作用。单身母亲多的地方情况更糟。这种效应不仅适用于单身母亲的孩子,而且适用于生活在单身母亲很多的地方的父母双全的孩子。其中一些结果表明,穷人家孩子的玩伴很重要。如果他的朋友背景困难,成功机会少,他也可能很难摆脱贫困。

数据表明,美国部分地区在帮助孩子摆脱贫困方面做得很好。那么,又是哪些地方能够让人们摆脱死神的造访呢?[5]

人们总是认为死亡对每个人来说都是公平的。毕竟,没有人可以逃避死亡。贫民不可以,国王不可以,流浪汉不可以,马克·扎克伯格也不可以。每个人都会死。

即使富人无法避免死亡,但数据还是告诉我们,他们现在至少可以延缓死亡的到来。总的来说,美国收入排名前1%的女性的寿命比收入最低的1%的女性长10年。对男性来说,这一寿命差距是15年。

这些模式在美国不同地区有何区别呢?预期寿命是否会因居住地而异呢?对富人和穷人来说,这种寿命差距有区别吗?通过放大地理位置,拉杰·切蒂的团队再一次找到了答案。

有趣的是,对美国最富裕的人来说,他们的预期寿命几乎完全不受居住地的影响。如果你有足够多的钱,作为女性你可以活到大约89岁,作为男性你可以活到大约87岁。各地的富人都倾向于养成更健康的习惯——一般来说,他们锻炼得更多,吃得更好,吸烟更少,而且患肥胖症的概率更小。他们买得起跑步机、有机牛油果,也上得起瑜伽课,而且他们可以在美国的任何一个地方买到这些东西。

对穷人来说,情况就不同了。美国最贫穷的人的预期寿命的变化在很大程度上取决于居住地。事实上,住在对的地方可以延长穷人5年的寿命。

那么,为什么有些地方似乎可以让穷人活得更久呢?那些穷人居住时间最长的城市有哪些特点呢?

表5–3中罗列了其中一座城市的4个特征,其中3个与穷人的预期寿命无关,另一个有关。看看你能不能猜出哪个是最重要的。

表5–3 促使穷人在一座城市活得更久的因素

前三个特征(宗教、环境和医疗保险)与穷人的寿命长短无关。那么,根据切蒂及其他参与这项研究的人的说法,富人数量这一重要的变量与之有关吗?有多少富人居住在一座城市里?城市里富人越多,意味着那里的穷人活得越长。例如,纽约市的穷人就比底特律的穷人活得更长。

为什么富人的存在如此有力地预示着穷人的预期寿命呢?其中一个假设(这是猜测)是由戴维·卡特勒(David Cutler)提出的,他是这项研究的作者之一,也是我的顾问之一。传染性行为可能会导致这种情况的发生。[6]

大量研究表明,习惯是会传染的。所以,居住在富人附近的穷人会养成很多富人的习惯。有一些习惯(如讲话自命不凡)不太可能影响一个人的健康,但是其他习惯(如健身)肯定会产生积极的作用。事实上,生活在富人附近的穷人锻炼更多,吸烟更少,也更不容易患肥胖症。

我个人最喜欢的研究是切蒂团队(他们可以访问国税局的海量数据)所做的调查——为何有的人逃税,而有的人不逃?[7]解释这项研究要更复杂一些。

关键是要知道,对有一个孩子的个体经营者来说,有一种简单的方法可以让他们从政府得到最多的钱。如果你报告称,在某一年你的应纳税收入正好是9 000美元,政府就会给你开一张1 377美元的支票,这笔钱代表的是劳动所得的税收抵免(一笔补助金,用于补贴有工作的穷人)减去你的工资税的数额。若报告的应纳税收入高于9 000美元,你的工资税将会增加;若报告的应纳税收入低于9 000美元,所得税收抵免就会下降。应纳税的收入为9 000美元是最佳选择。

而且,你难道不知道9 000美元是有一个孩子的个体经营者最常见的应纳税收入吗?

这些美国人是否调整了他们的工作时间表,以确保自己拿到最优的收入呢?没有。对这些工人进行随机抽查时(这种做法并不多见),几乎总是发现他们的收入远非9 000美元,要么少得多,要么多得多。

换句话说,他们在税收上作了假,假装自己挣了9 000美元,以便从政府得到最丰厚的支票。

那么,这种类型的税收欺诈有多典型呢?在有一个孩子的个体经营者中,谁最有可能实施这种欺诈行为呢?切蒂和他的同事报告称,在美国不同地区,这种欺诈行为的普遍性存在巨大的差异。在迈阿密的这类人中,30%的人都说自己挣了9 000美元,数量惊人;而在费城,只有2%。

什么因素能够预测谁会作假?究竟哪些地方欺诈行为高发,哪些地方欺诈行为低发呢?我们可以将作假率与其他的城市人口统计数据联系起来。结果表明,有两个强有力的预测因素:一是有资格享受税收抵免的人在某一地区高度集中,二是税收专家在该地区高度集中。

这些因素说明什么问题呢?切蒂和合著者做了解释。以这种方式骗税的主要动机就是获取信息。

大多数有一个孩子的个体经营纳税人都不知道从政府得到丰厚支票的神奇数字为9 000美元,但是居住在那些可能知道这一点的人(不论是邻居还是税务助理)附近,都能大大增加他们了解这一点的概率。

事实上,切蒂的团队发现了更多的证据,证明是“知识”驱动了这种欺诈行为。当美国人从一个税收欺诈率低的地区搬到一个税收欺诈率高的地区时,他们就学会了这个伎俩。随着时间的推移,欺诈行为在美国各地蔓延开来。像病毒一样,税收作假也是会传染的。

现在,我们停下来思考一下这项研究多有启迪意义。当我们想弄清楚谁会作假时,关键不是判断谁诚实,谁不诚实,而是要判断谁知道如何作假,谁不知道。

因此,有人告诉你他们绝不会在税收上作假时,他们很可能(正如你猜想的那样)在说谎。切蒂的研究说明,如果知道如何作假,他们就有可能这么做。

如果你想在税收上作假(我可不是在建议你这样做),就应该住在税务专业人士附近,或者住在那些能给你指路的税务骗子附近。如果你想自己的孩子能扬名海内外,又应该住在哪里呢?这种能够放大数据以真正看到细微之处的能力也有助于回答这一问题。

从前我很好奇最成功的那些美国人究竟来自哪里,所以有一天我决定下载维基百科。[8](现在你也可以做这件事了。)

通过简单的编码手段,我有了一个由超过15万名美国人组成的数据集,维基百科的编辑认为,这些数据足以保证我得到一个切入点。数据集包括出生县、出生日期、职业和性别。我将其与国家卫生统计中心采集的县级出生数据进行了整合,计算了美国每个县因你的成功而被录入维基百科的概率。

被录入维基百科是成功的一个重要标志吗?这显然有一定的局限性。维基百科的编辑偏向年轻人和男性,这有可能会对样本造成偏差,而且有些类型的出名并没有什么价值。例如,特德·邦迪(Ted Bundy)被录入维基百科是因为他杀害了几十位年轻女性。这就是说,我还是能够在不影响结果的前提下清除罪犯的信息。

我把这项研究限定在“婴儿潮一代”(1946—1964年出生的人),因为他们终其一生都在追求名利。“婴儿潮一代”中,大约每2 058人中就有一人被认为足够出名,可以被录入维基百科词条。这些位列维基百科的人中,大约30%的人凭借艺术或娱乐方面的成就,29%的人因为体育,9%的人因为政治,3%的人通过学术或科学,可谓各有所长。

我在这些数据中发现的第一个引人注目的事实是,获得巨大成功的可能性中存在着巨大的地理差异,至少在维基百科的词条上是这样体现的。人们出名的概率在很大程度上取决于出生地。

在出生于加利福尼亚州的“婴儿潮一代”中,大约每1 209人中就有一人登上维基百科。在西弗吉尼亚州,每4 496人中才有一人登上维基百科。按县放大,结果就更能说明问题了。在出生于波士顿所在地马萨诸塞州萨福克县的“婴儿潮一代”中,大约每748人中有一人登上维基百科。在其他一些县,成功率则为其5%。

为什么美国某些地区出现国家的推动者和引导者的概率更大呢?我仔细检查了排名靠前各县的情况,结果发现几乎所有的县都可划归下述两个类别之一。

首先,我很惊讶,很多这样的县中都有一个相当大的大学城。几乎每一次看到自己从未听过的县名出现在列表前端时,我都会发现这个县有一个著名的大学城,比如密歇根州的沃什特瑙,这里坐落着密歇根大学安娜堡分校。威斯康星州的麦迪逊、佐治亚州的雅典、密苏里州的哥伦比亚、加利福尼亚州的伯克利、北卡罗来纳州的查伯山、佛罗里达州的盖恩斯维尔、肯塔基州的列克星敦和纽约州的伊萨卡都位列前3%。

这是为什么呢?其中一些可能是由于基因库的缘故:教授和研究生的子女往往很聪明(在追逐巨大成功的游戏中,这种特质非常有用)。而且,一个地区有更多的大学毕业生的确可以作为出生于此地的人获得成功的有力预测指标。

但最有可能发生的事情是:早早接触创新。在大学城,培养精英最成功的领域之一便是音乐。大学城的孩子有机会接触独特的音乐会、不寻常的广播电台乃至独立的唱片店,而且这种影响不仅限于艺术领域。大学城里也能培育出比预期更多的知名企业家,或许早早接触前沿艺术和各种想法对其投身该领域也是大有裨益的。

大学城的成功不仅是跨地区的,而且是跨种族的。在维基百科的非运动领域,尤其是商业和科学领域,非洲裔美国人的比例明显偏低。这无疑与歧视有关。有一个小县城是个例外,该县1950年黑人人口占比高达84%,但这里在婴儿潮时期出生的人后来声名大振的概率非常接近那些出现名人最多的县。

婴儿潮时期出生在亚拉巴马州梅肯县的婴儿不足13 000人,其中有15人成功被录入维基百科——概率为1/852。这15位名人个个都是黑人,其中14人来自塔斯基吉小镇,即布克·T.华盛顿(Booker T. Washington)创立的历史悠久的黑人大学“塔斯基吉大学”的所在地。这14人中有法官、作家和科学家。事实上,出生在塔斯基吉小镇的一名黑人小孩在非体育领域成功的可能性与一个出生在成功概率最高、白人占多数的大学城的白人小孩一样大。

其次,最有可能让一个县的原住民取得成功的第二个原因,是其所在县位于大城市。[9]出生于旧金山县、洛杉矶县或纽约市都是极有可能登上维基百科的。(我把纽约市的5个县归为一组是因为很多维基百科词条并没有注明人物出生于哪个县。)

城市地区往往有很多成功模式可以参照。想要了解小时候与某个领域众多成功从业者毗邻而居究竟有何价值,比较一下纽约、波士顿和洛杉矶这三座大城市便一目了然了。这三座城市中,纽约产出著名记者的概率最大,波士顿产出杰出科学家的概率最大,洛杉矶产出知名演员的概率最大。要记住,我们这里说的都是那里土生土长的当地人,不是后来搬到那里的人。即使将那些父母在那个领域颇有声望的人排除在外,情况也是如此。

除非当地有比较大的大学城,否则地处郊区的县要比地处城市的县糟糕得多。像许多婴儿潮时期出生的人一样,我的父母把家从拥挤的街道搬到了绿荫大道(从曼哈顿搬到新泽西州的博根县),以便更好地培育他们的三个孩子。这可能是个错误,至少从培养孩子出名这方面来说是错的。出生于纽约的孩子将来登上维基百科的概率要比出生于博根县的孩子小80%。这些不过是相关性,但确实表明从小有机会接触新奇想法要比在空荡的后院里长大好。

如果当时得到整个童年时代居住地更精准的数据的话,那么这里确认的明显影响也许会更加强烈,因为很多人在成长过程中并非只住在自己出生的地方。

只看数据,就会发现大学城和大城市的成功是令人惊讶的,但我还是更加深入地进行了更加复杂的实证分析。

这样做表明,还有另一个变量也能很准确地预测一个人能否被录入维基百科词条:出生县的移民比例。某一地区外来居民比例越高,在那里出生的孩子取得显著成功的比例就越高(特朗普就是最好的例子)。如果两个地方的城市人口和大学人数不相上下,那么移民更多的地方将会培养出更多杰出的人。这又做何解释呢?

这种现象很大程度上要直接归因于那些移民的子女。我曾经根据麻省理工学院的“万神殿”项目(Pantheon project)对数百名最著名的白人“婴儿潮一代”的传记进行详尽的研究,该项目目前也在与维基百科的数据进行合作。这数百人大多是艺人,其中至少有13人的母亲属于外来居民,包括奥利弗·斯通(Oliver Stone)、桑德拉·布洛克(Sandra Bullock)和朱丽安·摩尔(Julianne Moore)。这一比例比同时期全国平均水平高三倍多。[很多人的父亲是移民,包括史蒂夫·乔布斯(Steve Jobs)和约翰·贝鲁西(John Belushi),但这一数据很难与全国平均水平相比,因为有关父亲的信息并不总是出现在出生证上。]

哪些变量不会对成功产生影响呢?我发现其中一个相当惊人的变量是一个州在教育领域的支出。在城市居民比例相似的那些州,教育支出与培育杰出作家、艺术家或商业领袖的比例无关。

把我的维基百科研究与前文讨论过的切蒂团队的研究进行比较非常有趣。回想一下,切蒂的团队曾试图找出哪些地区允许人们顺利逆袭,冲到中上阶层。我的研究则试图找出哪些地区更能允许人们获取名望。两相对比,结果截然相反。

在教育上花大钱有助于孩子们进入中上阶层,但在使他们成为杰出作家、艺术家或商业领袖方面帮不上什么忙。这类成功人士中有很多人都曾痛恨学校,有些人甚至辍过学。

切蒂的团队发现,如果你想确保孩子跻身中上阶层,纽约并不是一个特别好的选择。我的研究却发现,如果你想给孩子一个成名的机会,那纽约就是你要找的地方。

在探寻推动成功的因素时,各县之间的巨大差异就开始变得有意义。许多县同时具备推动成功的所有因素。我们再回到波士顿看看。因为有多所高等学府,所以这座城市一直孕育着创新思维。在这里,很多造诣极高的人士为年轻人树立了成功的典范。这里也吸引着大量移民,他们的孩子也被动地学习着这些经验教训。

如果一个地区没有这些特征该怎么办?那里就注定不会培养出几位超级明星吗?不一定。还有另一条路:极强的专业化。明尼苏达州有一个罗索县,地处乡村,很少有外来居民,也没有重点大学,这个小县就是一个很好的例子。在此地出生的人中,每740人中就有一人登上维基百科。秘密是什么呢?登上过维基百科的那9个人全都是职业曲棍球运动员,毫无疑问,他们都得到了本县世界级青年项目和高中曲棍球项目的帮助。

假设你对培养一名曲棍球明星不感兴趣,却又想让自己未来的孩子出人头地,那么把家搬到波士顿或塔斯基吉小镇有意义吗?通常来说,经济学家和社会学家关注的是如何规避不良后果,如贫穷和犯罪。然而,一个伟大社会的目标不应仅仅是让更少的人落后,而是帮助尽可能多的人获得成功。或许放大数十万名杰出的美国人出生地的努力能给我们提供一些初步的策略:鼓励移民、资助高等院校和支持艺术的发展等。

通常情况下,我研究的对象是美国,所以,当我想放大地理位置的时候,就想到了放大我们的城市和小镇——亚拉巴马州的梅肯县和明尼苏达州的罗索县这样的地方。互联网数据另一个不断增长的巨大优势是它可以轻松地从世界各地搜集到数据,我们因此可以看到各国的不同之处,数据科学家也可以借此机会涉足人类学。

我最近钻研的一个随机主题是:世界各地的怀孕情况如何?我查看了孕妇的谷歌搜索,发现的第一件事是各国女性对身体状况有着惊人相似的抱怨。

我测试了与“怀孕”一词的组合中各种症状的搜索频率。比如,“怀孕”与“恶心”“背痛”“便秘”组合的搜索频率是多少?加拿大孕妇出现的症状与美国孕妇非常接近。英国孕妇、澳大利亚孕妇和印度孕妇出现的症状也大致相似。

世界各地的孕妇渴望同样的东西。在美国,这类谷歌搜索中排名第一的是“想在怀孕期间吃冰”。接下来的4个搜索为盐、甜食、水果和辛辣食物。在澳大利亚,孕妇渴求的东西并没有太大不同:盐、甜食、巧克力、冰和水果。印度呢?情况也很类似:辛辣食物、甜食、巧克力、盐和冰激凌。事实上,排名前五的搜索在我查看的所有国家里都是类似的。

初步的证据表明,世界上没有任何一个地方曾经偶然发现过一种能彻底改变怀孕生理体验的饮食或环境。

有关怀孕的观念却大有不同。

先来看看孕妇能做哪些安全的事。美国最热门的问题是:孕妇能“吃虾”吗?能“喝酒”吗?能“喝咖啡”吗?能“服用泰诺”吗?

涉及这些问题时,其他国家与美国或美国之外的任何国家都没有多少共同之处。在加拿大、澳大利亚或英国,孕妇能否“喝酒”并不在十大问题之列。澳大利亚孕妇担忧的主要与食用乳制品,特别是与奶油乳酪制品有关。在尼日利亚,大约有30%的人使用网络,她们最关心的问题是孕妇能否喝凉水。

这些担忧合理吗?证据表明,孕妇食用未经高温杀菌处理的奶酪后,患李斯特菌的风险会大大增加。过量饮酒会对孩子造成不良后果。在世界上某些地方,人们认为孕妇喝凉水会把肺炎传给腹中的胎儿,但我不知道这种说法有何医学依据。

世界各地提出的不同问题有着巨大的差异,主要是由各国不同来源的信息洪流造成的:合理的科学研究、一般性的科学研究、奶奶的故事和邻里闲聊,不一而足。女性很难知道应关注什么,或应在谷歌网站搜索什么。

在关注热门搜索“怀孕期间如何……”时,我们会发现另一个明显的差别。在美国、澳大利亚和加拿大,最热门的搜索是“怀孕期间如何避免出现妊娠纹”,但在加纳、印度和尼日利亚,避免出现妊娠纹都不是排名前五的搜索。这些国家更关心如何过性生活或如何睡觉(见表5–4、表5–5)。

表5–4 “怀孕期间如何……”的五大搜索(按排名)

表5–5 以“孕妇能……吗”为开头的五大搜索

毫无疑问,放大世界各地的医疗健康和文化后,我们需要学习的还有更多。我的初步分析表明,大数据将告诉我们,在涉及超越生物学的知识时,人类的力量比我们意识到的要小得多。然而,我们对其全部的含义提出了完全不同的解释。

如何填满我们的每时每刻

“一个以强暴别人为乐,喜欢极端暴力和贝多芬的年轻人的冒险经历。”

这即是斯坦利·库布里克(Stanley Kubrick)那部极具争议的电影《发条橙》(A Clockwork Orange)的宣传语。在这部电影中,虚构的年轻主角亚历克斯·德拉热(Alex DeLarge)的暴力行为令人发指,而他在进行暴力犯罪时的沉着冷静和分裂人格更是令人不寒而栗。电影中最为令人诟病的场景之一,是他一边强暴女人,一边扯着嗓子高唱《雨中曲》。

几乎是紧随其后,盲目模仿影片情节的犯罪事件就出现了。据报道,一群男子在强暴一名17岁的女孩时也高唱着同样的歌。这部电影在欧洲的许多国家遭到禁播,在美国上映的删减版中删除了一些更令人发指的场景。

事实上,现实生活中有很多模仿艺术的例子,人们就好像被荧幕上呈现的那些东西施了催眠术一般。[10]黑帮电影《色彩》(Colors)上映之后,紧接着现实中就有一场枪战发生;《万恶之城》(New Jack City)上映之后,随之而来的就是多场骚乱。

或许最令人感到恐慌的案例,是在《金钱列车》(The Money Train)上映4天之后,有人用点火液点燃了地铁收费站,这几乎毫无二致地模拟了电影中的一个场景。电影中的虚构世界与现实中的真实案件唯一的区别在于:电影中的纵火犯逃脱了,而在现实生活中,他被烧死了。

还有一些心理学实验证实,暴力电影的观众即使没有精准地模仿其中的暴力行为,情绪上也会变得更为易怒和暴躁。[11]

换句话说,传闻逸事和实验结果都表明,暴力电影会引发暴力行为。那么,它们究竟能产生多大的影响呢?我们是过个十年八载才会谈起一两起谋杀案,还是每年都要聊个几百起谋杀案?那些传闻或实验无法解答这个问题。

为了探究大数据是否可以给出这个问题的答案,戈登·达尔(Gordon Dahl)和斯特凡诺·德拉维尼亚(Stefano DellaVigna)这两位经济学家将1995—2004年间的三大数据整合在一起,包括美国联邦调查局的每小时犯罪数据、票房数据和从童心网(kid-in-mind.com)上得到的每部电影的暴力程度数据。

两位经济学家所使用的信息很完整(每部电影以及全美每小时内发生的每一次犯罪行为),事实证明这一点非常重要。

他们的研究发现了一个重要事实,即有些周末最受欢迎的电影是暴力电影,比如《汉尼拔》(Hannibal)或《死亡黎明》(Dawn of the Dead),然而其他周末最受欢迎的电影却是非暴力的电影,比如《落跑新娘》(Runaway Bride)或《玩具总动员》(Toy Story)。

两位经济学家可以确切地了解到,在周末放映了一部典型的暴力电影后,有多少起谋杀、强奸和袭击事件发生,也可以确切地了解到这一数据与放映了一部典型的平和电影后得到的数据的差别。

那么,他们发现了什么呢?在暴力电影放映后,犯罪率究竟是会像实验结果预测的那样上升,还是会保持不变?

两位经济学家发现,在放映人气颇高的暴力电影的周末,犯罪率是不升反降的。[12]

是的,你没看错。在放映人气颇高的暴力电影的周末,数百万名美国人都在目睹人杀人的画面,犯罪率是下降的——而且是显著下降的。

一旦得到这样出人意料的结果,人们首先想到的一定是自己的做法出了差错。于是,两位经济学家对编码工作进行了仔细审查,没有发现错误。人们的第二个想法,就是认为有另一种变量能够解释这些结果。于是,两位经济学家认真查验是否一年中的某些时刻会对这些结果产生影响。结果证明没有影响。他们还搜集了关于天气的数据,猜测天气可能在某种程度上影响暴力电影和犯罪率之间的关系。结果仍然是否定的。

“我们对自己所有的假设和眼下正在做的事情进行了查验,却没有发现任何错误。”达尔对我说道。

尽管有传闻逸事,尽管有实验证据,但结果看起来就是这么匪夷所思,放映一部暴力电影的确导致了犯罪率的大幅下降。这怎么可能呢?

达尔和德拉维尼亚研究的关键,是利用他们的大数据来近距离观察这一问题。按照惯例,调查数据通常一年提供一次,或者至多也只是一月提供一次。如果真的够幸运,可能会得到一周一次的数据。相比之下,综合数据集的运用率日益提高,逐渐取代了小样本调查的方法,人类已经能够以小时甚至分钟为单位来放大数据了,这也让我们更加了解人类行为了。

有时,随时间的推移而产生的数据波动只要不那么离奇,还是很有趣的。加拿大埃德蒙顿的公用事业公司EPCOR在2010年冬季奥林匹克运动会的冰球决赛过程中,以分钟为单位报告了当时的用水量,据估计当时约80%的加拿大人都在观看这场加拿大与美国两国之间的对决。数据显示,每个赛段一结束,耗水量随即暴涨,很明显整个埃德蒙顿市的马桶都在冲水(见图5–4)。

谷歌搜索同样可以按分钟细分,在此过程中也揭示出一些有趣的模式。[13]例如,“无阻小游戏”的搜索量在平日上午8点会迅速上涨,一直持续至下午3点,这一状况无疑反映出许多学校在不禁止学生带手机的情况下,尝试阻止学生利用校园网玩手机游戏的情况。

图5–4 奥运金牌产生过程中埃德蒙顿的耗水量

“天气”“祈祷”“新闻”的搜索率在早晨5点半之前就达到峰值,证明大多数人都比我起得早。“自杀”的搜索率在中午12点36分达到顶峰,在上午9点左右处于最低水平,证明早晨大多数人都比我心情好。

数据显示,凌晨2点到4点这段时间是思考大问题的黄金时间:意识的意义是什么?自由意志是否存在?其他星球上有生命吗?后半夜这些问题的热度如此之高,一部分要归因于大麻的作用。凌晨1点到2点之间,“如何卷大麻”的搜索率是最高的。

从他们的大数据集中,达尔和德拉维尼亚能够看到放映暴力电影的周末,犯罪行为在每小时的单位时间内是如何变化的。他们发现,相比其他周末来说,放映暴力电影的周末傍晚的犯罪率是下降的。换句话说,在暴力场面出现之前,也就是观影者正走进电影院的工夫,犯罪率就降低了。

你能猜到个中原因吗?首先,想一想谁比较偏爱观看暴力电影。当然是年轻人,特别是年轻且具有攻击性的男人。

其次,想一想犯罪行为通常发生在哪里。当然很少发生在电影院,不过也有过例外的情况,2012年科罗拉多州一家剧院就发生过一起蓄谋已久的枪击案,当时可谓人尽皆知。总的来说,看演出的男人通常不会携带武器,他们会安安静静地坐在那儿的。

给年轻且有攻击性的男性观看《汉尼拔》的机会,他们会欣然前往;可如果给年轻且有攻击性的男性去看《落跑新娘》的机会,他们不但会拒绝观看,而且会拒绝待在家里,可能会去酒吧、俱乐部甚至游泳馆之类的地方,这些都是犯罪高发的地方。

所以说暴力电影让潜在的暴力人群离开了街头。

谜题解决了。是这样吗?也不完全是。数据还透露出一件奇怪的事。电影开始时,犯罪率降了下来;然而,在电影结束和剧院关闭之后,犯罪率依然持续降低,并未停止。放映暴力电影的当晚,从午夜到次日早晨6点,犯罪率一直持续下降。

青年男性待在电影院里时,犯罪率呈降低走势,那么在他们离开影院,注意力不再集中于电影时,犯罪率难道不应该呈上升的趋势吗?他们才刚刚看完一部暴力电影,许多实验都认为这会使人更易怒,也更具攻击性。

那么,又该如何解释电影放映结束后犯罪率仍然呈现下降的趋势呢?那些犯罪学专家经过深思熟虑后,终于恍然大悟。他们知道酒精是导致犯罪行为的主要原因。[14]前述两位经济学家曾经调研过相当多的电影院,了解到在美国几乎没有剧院供应酒类饮品。事实也的确如此,研究表明在暴力电影放映结束之后的几个小时内,与酒精有关的犯罪活动数量一落千丈。

当然,达尔和德拉维尼亚的研究成果有一定的局限性。例如,他们不能测试几个月后的后续结果,从而了解犯罪率的下降趋势可能会持续多久。然而,暴力电影持续放映最终仍然有可能会导致更多的暴力行为。两位的研究的确对这些实验的主题(暴力电影对人们的直接影响)做了全面且清晰的分析。[15]也许暴力电影确实影响了一些人,使他们容易愤怒,充满攻击性。可你知道哪些因素对于人的暴力倾向有着不容置疑的影响吗?那就是与潜在的暴力犯一起喝酒和闲逛。(这个故事表明,如果能够阻止事态恶化,那么看起来糟糕的事情可能也会变好。就读于斯坦福大学的前外接员埃德·麦卡弗里(Ed McCaffrey)利用这个结论来证明他让4个儿子踢足球是合理的:“这些小家伙精力旺盛,如果不踢足球,他们就会去玩滑板、爬树、在后院拍画片、做彩弹。也就是说,他们才不会老老实实坐在那里什么都不干。我就觉得,嘿,你看,至少足球这项运动有一定的规则……孩子们经常光顾急诊室,要么是从甲板上掉下来,要么是单车事故、滑板事故,要么是从树上摔下来。我觉得你也可以称这是……没错,就是暴力性碰撞运动。虽说这些小家伙也有个性,但至少他们不会模仿松鼠从山崖上跳下,不会做些疯狂的事情。所以,我觉得这是一种有节制的攻击行为。”[16]麦卡弗里在访谈节目《牛仔和牲畜》(The Herd with Colin Cowherd)中阐述的这个论点我之前从未听说过。在阅读达尔和德拉维尼亚合作的论文后,我认真研究了这个观点。与实验室数据相比,现实世界的大数据集有一个优点,即它们可以在不经意间显示出这些效果。——作者注)

现在答案清楚明白了,但是在达尔和德拉维尼亚分析这堆数据之前,没人能理清这个问题。

当我们放大数据时,另一个更为重要的关键点凸显出来:世界是复杂的。我们今天的行为可能会产生深远的影响,而其中大部分影响都是无意使然的。思想的传播过程好似病毒蔓延——有时候很慢,有时候却又飞快。

人们对各种诱因和动机做出的回应行为通常是无法预知的。其内在的联系和外在的关系,激增和扩张,无法用小样本的调查或传统的数据方法来追踪。用小数据进行研究的话,这个本是如此简单的世界就显得过于复杂和丰富了。

我们的二重身

2009年6月,“老爹”戴维·奥尔蒂斯(David “Big Papi”Ortiz)的职业生涯似乎已经彻底完结。在过去的5年里,波士顿红袜队对这位笑容友好、大牙缝的多米尼加籍猛士可谓宠爱有加。

他连续5次入选全明星赛,获得一次MVP(最有价值球员奖),并助波士顿红袜队结束了86年的冠军争夺战,但在2008年赛季,32岁的他排名下降了。他的击球百分比下降了68%,上垒百分比下降了76%,长打百分比下降了114%。到2009年赛季开始的时候,奥尔蒂斯的各项排名依旧持续下滑。

比尔·西蒙斯(Bill Simmons)是一名体育记者,也是一名狂热的波士顿红袜队球迷,2009年赛季伊始,他曾经这样描述道:“很显然,戴维·奥尔蒂斯不再是棒球项目中的佼佼者……强壮的猛士如今就如同色情明星、摔跤手、NBA中锋和花瓶一样:势头一过,就过气了。”[17]伟大的体育迷相信他们的眼睛,而西蒙斯的眼睛却告诉自己奥尔蒂斯已经日薄西山了,事实上他也预测奥尔蒂斯很快就会成为替补队员,甚至有可能退役。

奥尔蒂斯真的就这样完了吗?如果你是波士顿红袜队的总经理,那么2009年时,你会辞退他吗?一般而言,如何预测一个棒球运动员未来的表现呢?[18]或者从更宽泛的视角来看,我们如何使用大数据来预测人们未来会做些什么呢?

有这样一个理论可以让你进一步了解数据科学:看看那些棒球数据分析师(那些运用数据研究棒球的人)有什么研究成果,然后试着将这个成果应用到数据科学的其他领域。棒球运动属于最先运用综合数据集研究所有问题的众多领域之一,有那么一群聪明人愿意终其一生去研究这些数据。如今,他们的研究正逐渐覆盖所有领域,首先是棒球研究,其他领域的研究紧随其后,棒球数据分析师可谓一统天下了。

预测棒球运动员未来最简单的方法,就是以其目前的状态来推测他接下来的表现。如果一名球员在过去的一年半中苦苦挣扎,那么在未来的一年半中,他可能也会步履维艰。

按照这种方法论,波士顿红袜队当时应该换掉戴维·奥尔蒂斯。

但是,可能还有更多相关信息。20世纪80年代,被公认为棒球数据分析鼻祖的比尔·詹姆斯(Bill James)强调了年龄的重要性。詹姆斯发现,很多棒球运动员很早就会到达职业生涯的巅峰,一般27岁左右就会成名。球队往往忽略了有多少球员的球技会随着年龄的增长而下降,因此会付给高龄球员过高的薪水。

按照这种更先进的方法论,波士顿红袜队肯定会替换掉戴维·奥尔蒂斯。

但这种年龄判定法可能也会有一些差池,并非所有球员都会沿着同一路径走完自己的职业生涯。一些球员可能在23岁时球技达到峰值,另一些球员则会在32岁时如日中天。矮个子球员可能与高个子球员情况不同,体形瘦的球员与体形胖的球员情况也不同。棒球数据统计人员发现,不同类型的球员有不同的衰老过程。对奥尔蒂斯来说,情况更糟:一般来说,“强壮猛士”的身体机能高峰期确实出现得较早,并且一过30岁很快就衰退了。[19]

如果波士顿红袜队综合考虑戴维·奥尔蒂斯的近况、年龄和体形,毫无疑问,他们应该换掉他。

后来,在2003年,统计学家纳特·西尔弗引入了一个名为PECOTA的新模型来预测队员的表现,这果然是最好、最酷炫的方式。西尔弗搜寻到了球员的二重身!步骤是这样的:建立一个数据库,其中包括职业棒球大联盟有史以来18 000多名球员的所有数据,包含那些球员为人所知的一切信息,如他们的身高、年龄和走位,他们的本垒打、平均打击率、走路方式和职业生涯中每一年的三振数。现在,西尔弗找到20名球员,这些球员与彼时33岁的奥尔蒂斯状态最为接近,他们在24、25、26、27、28、29、30、31、32、33这些岁数时的表现和他相似。换句话说,西尔弗找到了奥尔蒂斯的二重身,然后我们来看看这些奥尔蒂斯的二重身的职业生涯走向如何。[20]

二重身的搜索是数据放大的又一个例子,它放大了与特定人物最相似的一小部分人。而且,随着对这些人物的全面放大,掌握的数据越多,二重身就越准确。事实证明,根据奥尔蒂斯的二重身对其未来所做的预测和以往对他的预测差别很大。奥尔蒂斯的二重身包括豪尔赫·波萨达(Jorge Posada)和吉姆·托梅(Jim Thome)。这些球员在其职业生涯之初显得比较慢热,在20岁出头的时候才表现出惊人的爆发力和世界级水平,然后在30岁刚出头时就开始力不从心。

西尔弗接着根据这些二重身的最终结果预测了奥尔蒂斯的未来。他发现这些人都拥有各自职业生涯的第二春。至于花瓶的比喻,西蒙斯也许是对的:势头一过,就过气了。然而,对奥尔蒂斯的二重身来说却是,好花再红,梅开二度。

二重身搜寻研究法是用于预测棒球运动员行为的最佳方法论,表明波士顿红袜队应该对奥尔蒂斯有耐心。波士顿红袜队确实对这位年长的猛士很有耐心。2010年,奥尔蒂斯的场均得分上升到270,取得了32个本垒打的好成绩,进了全明星队。奥尔蒂斯开始了他连续4场的全明星赛。2013年,37岁的他和以往一样排在第三位,以4胜2负、688分的成绩帮助波士顿红袜队击败了圣路易斯红雀队,并当选为当届世界棒球职业大赛的MVP。[21]

读完纳特·西尔弗预测球员生涯轨迹的方法后,我便立即开始考虑,自己是不是也有这么一个二重身存在。

二重身搜寻研究法在很多领域都有巨大的潜力,不仅仅局限于运动领域。我能找到与自己最为兴趣相投的人吗?也许如果找到了那个和我最相似的人,我们就可以一起出去游玩了。也许他会知道一些我们都喜欢的餐馆,也许他可以介绍一些我都不知道自己会喜欢的东西给我。

二重身搜寻研究法可以放大个体乃至个体的特征,而且,与所有的放大一样,你获得的数据越多,它就越清晰。假设我在将近10人的数据集中搜寻我的二重身,可能会找到和我喜欢同类书籍的人;假设我在将近1 000人的数据集中搜寻我的二重身,可能会找到一个和我一样喜欢流行物理学书籍的人;假设我在数亿人的数据集中搜寻我的二重身,那么就可能会找到一个和我几乎一样的人。

一天,我像个猎人一样在社交媒体上搜寻我的二重身。我使用了推特的整个数据库,寻找地球上与我最为志趣相投的人。通过我在推特上关注的人,可以准确地判断出我的许多兴趣爱好。我一共关注了250个账号,它们显示出我对于体育、政治、喜剧、科学和那些忧郁的犹太民谣歌手的热爱。

那么,世界上有没有谁和我共同关注了这250个账号呢?有没有谁是我的推特双胞胎呢?当然没有。二重身并不是我们自身的完全复制,只是有相似的地方而已。也没有任何人与我能有200个共同关注的账号,甚至连150个都达不到。

然而,我终于找到了一个账户(今日乡村音乐电台)和我共同关注了100个账户。啊?结果出人意料,“今日乡村音乐电台”是一个“僵尸”账户(并不存在),它关注了75万个推特用户,希望可以和他们“互粉”。

我怀疑我的前女友会因这个结果而感到高兴。她曾告诉我,我更像一个机器人,而不是一个活生生的人。

玩笑归玩笑,我最初的发现是我的二重身是个机器人,它关注了75万个随机用户,这个发现确实对二重身搜寻很重要。为了使二重身搜寻完全准确,你不仅会希望找到一个“同好”的人,而且想找到一个与你“同恶”的人。

不仅我关注过的账号能够清晰地显示出我的兴趣,我有意不关注的账号也能显示这一点。我喜欢体育、政治、喜剧和科学,不喜欢食物、时尚和演出。我关注的内容显示出我喜欢伯尼·桑德斯(Bernie Sanders),不喜欢伊丽莎白·沃伦(Elizabeth Warren);喜欢萨拉·西尔弗曼(Sarah Silverman),不喜欢埃米·舒默(AmySchumer);喜欢《纽约客》(New Yorker),不喜欢《大西洋报》(Atlantic);喜欢我的朋友诺厄·波普(Noah Popp)、埃米莉·桑兹(Emily Sands)和乔希·戈特利布(Josh Gottlieb),不喜欢萨姆·阿舍(Sam Asher)。(对不起,萨姆,可你的推特简讯简直要让我睡着了。)

在两亿个推特用户中,谁与我的个人资料最相似呢?事实证明,我的二重身是《沃克斯》(Vox)杂志作家迪伦·马修斯(Dylan Matthews)。结果有点儿令人失望,但为了提高自己的媒体关注度,我已经在推特和脸谱网上关注了马修斯,而且强迫自己阅读他的《沃克斯》杂志推送。所以,得知他是我的二重身并没有真正改变我的生活,但是认识世界上与你最像的人还是挺酷的,尤其是如果你还崇拜这个人的话。所以,在我完成本书,出关以后,或许我们俩可以散散步,讨论一下詹姆斯·索罗维基(James Surowiecki)的作品。

对棒球迷来说,奥尔蒂斯的二重身搜寻是非常棒的,而我的二重身搜寻是很有趣的,至少我觉得是这样的,但是,这些搜寻还能揭示出别的什么吗?许多大型互联网公司已经在运用二重身搜寻进一步改善它们的产品和用户体验。亚马逊便使用类似二重身搜寻的东西推荐你可能喜欢的书。它们能看到与你相似的人选择了什么,并以此为依据为你推荐图书。

在你挑选想听的歌曲时,潘多拉视频播放器也会做同样的事。网飞网站也是用这种方法得知你可能想看的电影的。个性化推荐系统的影响非常深远,因此,当亚马逊的工程师格雷格·林登(Greg Linden)首次引入这一方法预测读者的书籍偏好时,书籍推荐的效果明显增强了,激动的亚马逊创始人杰夫·贝佐斯(Jeff Bezos)双膝跪地,冲着林登高喊:“我何德何能啊!”

想想二重身搜寻的影响之深,就会明白这种方法真正有趣的地方不在于现在有多常用,而在于它有多不常用。生活中有很多事情都可以通过这些搜寻允许的个性化设置得到极大的提高,以我们的健康为例。

哈佛大学的计算机科学家兼医学研究员艾萨克·科恩(Isaac Kohane)正试图将这一方法应用于医学领域。他想搜集并整合人们所有的健康信息,这样一来,不用一刀切的方法,医生就可以找到和你一样的病患。然后,他们就可以使用更加个性化、更集中的诊断和治疗方法。

科恩认为这是医学领域的自然延伸,甚至都算不上什么重大进步。科恩问:“诊断到底是什么?诊断实际上是一种陈述,用以说明你与先前研究过的人有哪些共享属性。当我诊断你有心脏病时(呸呸呸,这样讲太不应该了),我会说我在你身上看到了此前我在别人身上发现的病理生理学症状,这就意味着你也患有心脏病。”[22]

从本质上说,诊断是一种原始的二重身搜寻。问题是医生用来做诊断的数据集太小了。如今,医生基于其治病的经验做诊断,或许还会以其他研究人员发表的关于小群体的学术论文做补充。不过我们已经看到,二重身搜寻要想做得好,必须有更多的案例才行。

对于这个领域,大数据确实能帮得上忙。那么,为什么还花了这么长时间呢?为什么大数据到现在还没有得到广泛应用呢?其问题在于数据搜集。许多医疗报告仍然停留在书面上,掩埋在文件堆里,而那些已经计算机化的报告,常常因格式不兼容而无法阅读。科恩指出,相比医疗卫生领域,我们在棒球方面反而通常可以得到更准确的数据。简单的措施往往大有帮助,科恩一再提到“容易得到的水果”这个说法,例如,他相信只需创建一个完整的数据集,其中包含儿童的身高体重表和他们可能会感染的所有疾病,这一举措对儿科来说将具有革命性的意义。如此一来,每个孩子的成长道路都可以与其他孩子的成长道路相比较,计算机可以找到成长路径相似的孩子,并且自动标记所有棘手的模式。计算机也可能会检测到孩子的身高过早趋于稳定,某些情况下很可能是因为孩子存在下述两种病症之一:甲状腺功能减退或脑瘤。不管是哪种情况,及早诊断都是好事。科恩说:“这些都是稀有事件,是概率只有万分之一的事件。总的来说,孩子们是健康的。我想我们可以提前诊断,至少提前一年。我们完全可以做到这一点。”

詹姆斯·海伍德(James Heywood)是一名企业家,他有一种不同的方法可以处理医疗数据连接难题。[23]他创建了一个网站PatientsLikeMe.com,每个人都可以在这个网站上报告自己的信息,如健康状况、治疗手段和副作用等。他已经获得了很多成功图表,记录了疾病的变化,以及如何将疾病与我们对疾病的一般认识进行比对。

他的目标就是招募足够多的人,考虑尽可能多的情况,从而使人们能找到他们自己的健康二重身。海伍德希望你可以找到这么一类人,你与他们年龄相同、性格相同,过去的经历相似,报告的症状也相似,然后看看他们是怎么做的。那确实会是一种完全不同的药物。

数据的故事

对我来说,放大行为比一项特定研究的特定发现更有价值,因为这种行为提供了一种看待和谈论生活的新方法。

当人们知晓我是一名数据科学家和作家时,他们有时就会和我分享一些事实和调查数据。我常常发现这些数据枯燥乏味,一成不变,毫无生气,并没有什么故事可讲。

同样,我的朋友也试图让我加入他们,一起阅读小说和传记,但我对这些也不怎么感兴趣。我总是问自己:“其他情形下也会出现这样的感觉吗?更普遍的情况又是什么样的呢?”他们的故事感觉没什么大不了,也不具代表性。

对我来说,我在本书中试图呈现的内容是与众不同的,这些内容基于数据和数字,具有很强的阐释性和深远的意义。数据如此丰富,我们完全可以看到这些数据所代表的人。当我放大埃德蒙顿每分钟的耗水量时,我看到了人们在这一回合结束时正从沙发上站起身来;当我放大从费城搬到迈阿密开始税收作假的人时,我看到了这些人正在公寓大楼里与邻居交谈,了解税收作假手段;当我放大每个年龄段的棒球迷时,我看到了我自己的童年和我弟弟的童年,看到了数百万个成年人在看到自己支持的球队夺冠时依然会热泪盈眶,而这支球队早在这些人还是8岁的孩子时便赢得了他们的热爱。

再次冒着听起来浮夸的风险,我认为本书中提到的经济学家和数据科学家不仅创造了一种新的工具,而且创造了一种新的流派。我在本章以及本书的大部分章节里一直努力呈现的内容便是很大且很丰富的数据,这些数据让我们能够无限放大和拉近,不局限于任何特定的、毫无代表性的人类,我们仍然能够讲述复杂而有情怀的故事。

说谎 / 数据真相

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000