8 数据越多，问题越多哪些事情不可为

2020年7月20日　　来源：人人都在说谎——赤裸裸的数据真相　作者：[美]赛思·斯蒂芬斯–达维多维茨　提供人：heidong86......

有时候，大数据的力量之所以令人瞩目，是因为这些数据令人不寒而栗。这就引发了一些道德问题。

授权公司的危险

最近，来自哥伦比亚大学的奥代德·内策（Oded Netzer）、阿兰·勒迈尔（Alain Lemaire）和特拉华大学的米甲·赫岑施泰因（Michal Herzenstein）这三位经济学家都在寻找预测借款人偿还贷款可能性的方法。[1]这些学者利用来自P2P（个人对个人）贷款网站Prosper的数据。潜在的借款人会写一个简要介绍，说明为什么他们需要贷款，以及为什么他们可以如期还款，潜在的贷款人据此决定是否为他们提供贷款。总体来看，大约有13%的借款人拖欠过贷款。[2]

事实证明，潜在借款人说的话是他们偿还概率强有力的预测指标。即使贷款人了解了潜在借款人的其他相关信息，包括信用评级和收入，他们的措辞也是一个重要的指标。

以下列出的是研究人员发现在申请贷款时最常用到的10个短语，其中5个与偿还贷款概率呈正相关，5个与偿还贷款概率呈负相关。换句话说，5个是你可信任的人使用的，5个是你不能信任的人使用的。看看你能否猜到它们分别是什么（见表8–1）。

表8–1 申请贷款时最常用到的10个短语

你可能会想（或者至少希望）一个说出自己需求的有礼貌的、直率的宗教人士或许是最有可能偿还贷款的人，但事实并非如此。数据显示，这种类型的人偿还贷款的能力一般低于平均水平。

表8–2和表8–3是按偿还贷款的可能性分组的短语。

表8–2 可能偿还贷款借贷人所用短语

表8–3 可能不偿还贷款借贷人所用短语

在讨论这项研究的道德含义之前，让我们在这些研究人员的帮助下，仔细思考一下该研究向我们揭示了人们的哪些方面。我们应该如何理解这两种不同类别的短语？

首先，咱们一起看看表明人们更有可能偿还贷款的用词。诸如“更低利率”或“税后”等短语表明借款人对金融之道有一定了解，所以将这些词与更有可能偿还贷款的人联系起来也许并不奇怪。另外，如果他谈到自己是“本科毕业”“无债务”等正面的因素，也有可能会偿还贷款。

其次，咱们再来看看表明人们不太可能偿还贷款的用词。一般来说，如果有人告诉你他会还你钱，那他很有可能不还了。承诺越是坚决肯定，就越有可能无法兑现。如果有人写下“我保证我一定会还钱，上帝求你帮帮我吧”，他是最不可能还的。激起你的怜悯之心（他解释说，他需要这笔钱，因为他的亲戚在住“医院”）也意味着他不太可能还钱。事实上，提到任何家庭成员（丈夫、妻子、儿子、女儿、母亲或父亲）都是不会还钱的标志。另一个暗示会违约的词是“解释”，意思是说，如果人们试图解释为什么自己能够偿还贷款，那他们很可能不会还款。

研究人员没有理论来说明为什么“感谢”他人是可能违约的证据。

总而言之，根据这些研究人员的研究，一个人如何还贷的详细计划和过去曾履行过的承诺是他会偿还贷款的证据。做出承诺、博得同情是一个人不会还款最为明显的迹象。不管理由是什么（或者它展示给我们的人性就是，许下承诺实际上是什么事都不会做的信号），学者发现这个测试对预测不会偿还贷款是非常有价值的信息。提到上帝的人拖欠债务的可能性为不提上帝的人的2.2倍。这是一个人不会还款的单项最高指标之一。

几位研究人员也认为他们的研究引发了一些道德问题。虽然这只是一项学术研究，但一些公司确实报告称，他们的确在利用在线数据批准贷款。这种方法可以接受吗？让众多公司利用我们写下的词来预测我们是否会偿还贷款，我们真的想生活在这样一个世界里吗？这起码会让人毛骨悚然，而且很有可能会让人恐慌不已。

在不久的将来寻求贷款的消费者可能不仅要担心自己的财务历史，而且要担心自己的线上活动。她可能会被看似荒谬的评判方式打上标签，比如她说了“谢谢”，或者求“上帝”保佑。说得更远一点，假如一个女人真的急需这笔钱来帮助住院的妹妹，并且她将来一定会偿还这笔债务呢？一般来说，声称需要医疗费用帮助的人经常被证明是在撒谎，可因此而惩罚她是不是过于残忍呢？一个以这种方式运作的世界会开始呈现令人绝望的模样。

这就是那个道德问题：企业是否有权根据与其提供的服务不直接相关的抽象统计学预测标准来判断人们是否可以享受其服务呢？

先不看财务领域，来看看受这种评判方式影响更大的领域，以聘用为例。在考量求职者条件时，雇主越来越多地搜集社交媒体的信息。如果他们寻找求职者在背地里说前雇主的坏话或者泄露前雇主秘密的证据，可能不会引发什么道德问题。他们甚至还可以因某人的脸谱网或照片墙表明其酗酒而拒绝录用他，这种理由也不可谓不合理，但是，如果他们发现一个看似无害，实则与他们在意的事情紧密相关的指标又会如何呢？

剑桥大学和微软的研究人员向美国的58 000名脸谱网用户提供了关于他们个性与智力的各种测试。他们发现，脸谱网的点赞常常与智商、外向的性格和责任心相关。[3]例如，脸谱网上喜欢莫扎特、雷雨天气和卷曲薯条的人往往智商较高，喜欢哈雷–戴维森摩托车、乡村音乐团体“战前女神”或者“我爱当妈妈”这个页面的人往往智商较低。其中一些相关性可能是源于维度的诅咒。如果你测试了足够多的东西，一些东西便会随机地联系起来，但一些兴趣可能与智商正相关。

如果一个喜欢哈雷的人很聪明，却不能得到与其技能相称的工作，这是不公平的，因为他没有意识到这一点会表明智力低下。

公平地说，这并不是一个全新的问题。长期以来，人们一直受到与工作表现不直接相关的因素的评判，比如握手力度或衣着的整洁性。数据革命带来的一个危险是，随着我们的生活不断被量化，这些替代判断因素可能会变得更加神秘，但也更具侵略性。更准确的预测可能会导致歧视更加微妙，也更恶毒。

更好的数据也可能导致另一种形式的歧视，经济学家称之为价格歧视。企业常试图确定应该为其商品或服务收取多少费用，理想情况下，他们希望收取客户愿意支付的最大费用。这样，他们就能获得最大的利润。

大多数企业最终都会选择一个所有人都愿意支付的价格，不过他们有时候会意识到某个特定群体的人平均会支付更高的价格。这就是电影院对中年顾客（依据其赚钱能力）收取的费用要比学生或老年人高，航空公司常向最后时刻购票者收取更多费用的原因。这就是看人定价格。

大数据可以让企业更准确地了解顾客愿意支付多少钱，进而哄骗某些群体。“最优决策小组”运用数据科学预测消费者愿意为购买保险支付多少钱。他们是怎么做的呢？其方法本书已有论述。他们找到了与现今看似想买保险的人最相似的老顾客，然后查看这些老顾客最多能承受多少溢价。换句话说，决策小组的人进行了二重身搜寻。若能预测一位棒球运动员能否重回巅峰，那么二重身搜寻就很有趣；若能帮助治愈疾病，那么它就是有用的。但若帮助一个公司榨取你身上的每一分钱，这样的做法又如何呢？一点儿也不酷！若是这样，我那挥金如土的弟弟就算在网上比我这个吝啬鬼花的钱多，他也是有权利抱怨的。

在赌博领域，放大顾客信息的能力具有潜在的危险性。大型赌场一直在用类似二重身搜寻的工具来更好地了解其顾客。他们的目标是什么？是尽最大可能榨取利润——确保你口袋里的钱更多地流入他们的腰包。

运作方式是这样的：赌场工作人员认为，每个赌徒都有一个“痛点”。这个“痛点”是赌徒在赌场损失的数额，这个数额大到足以令他害怕，所以在很长一段时间内他都不敢再踏进赌场半步。例如，假设海伦的“痛点”是3 000美元，这就意味着，如果海伦输掉3 000美元，赌场就会失去这位顾客，可能几周或几个月都见不到她；如果海伦输掉2 999美元，她也会不高兴，毕竟没有人喜欢输钱，但是她不会因此意志消沉，第二天晚上还会照样出现在赌场。

想象一下，假如你是赌场的管理者，而海伦就在你的赌场玩老虎机，最佳结果是什么呢？很显然，你想让海伦尽可能地接近其“痛点”却又不超过它。你想让海伦输掉2 999美元，这样你赚得够多，而她又不至于输到自己短时间内不想再回来玩。

怎么做到这一点呢？其实，有很多办法能让海伦一旦输掉一定的钱就停止赌博。例如，可以为她提供免费餐点。如果食物足够诱人，她就会离开老虎机去吃好吃的了。

这一方法有个很大的问题：如何知道海伦的“痛点”？问题是每个人的“痛点”各不相同。海伦的是3 000美元，约翰的可能是2 000美元，本的可能就是26 000美元。如果在海伦输掉2 000美元时就说服她停止赌博，那么你就捞不着最大利润。如果你等太长时间（一直到她输掉3 000美元后），你就会在一段时间内失去她这个收入来源。进一步说，海伦可能不想告诉你她的“痛点”，而且连她可能都不知道自己的“痛点”是多少。

那么，你会怎么做呢？本书读到此处，你可能已经猜到了答案：利用数据科学。你可以了解许多顾客的所有信息，包括年龄、性别、邮编和赌博行为，根据其赌博行为（盈利、亏损和进出场记录）就可以大致估算其“痛点”。

搜集你所知道的有关海伦的所有信息，然后找出与她最相似的赌徒，也就是她的二重身。接着，弄清楚他们能承受多大的痛苦，也许和海伦能承受的一样多。事实上，哈拉斯娱乐公司就是这么做的，利用大数据仓库公司Terabyte来助他们一臂之力。

Terabyte总经理斯科特·格瑙（Scott Gnau）在其畅销书《超级数字天才》（Super Crunchers）中解释了赌场经理看到老顾客临近“痛点”时的做法：“他们会走出来，然后说：‘我看你今天手气不太好，我知道你喜欢我们的牛排馆。这边，先带你夫人去吃晚餐吧。’”

提供一顿免费的牛排看起来似乎很慷慨，但实际上是有私心的。赌场只是想在这些赌徒输红眼之前让他们停下来，否则他们很可能会因输太多而在一段时间内放弃赌博。换句话说，赌场管理层正在运用复杂的数据分析，努力从顾客身上榨取尽可能多的利润，他们想放长线，钓大鱼。

我们有权利担心在线数据越来越好用会让赌场、保险公司、贷款机构和其他企业实体对我们施加更大的影响。

另外，大数据也能让消费者对那些收取过高费用或提供劣质产品的企业进行有力的回击。

消费者的一个重要武器就是点评网站，比如Yelp，该网站公开发布用户对美国餐馆和其他服务机构的点评信息。哈佛大学经济学家迈克尔·卢卡（Michael Luca）最近的一项研究显示了企业受Yelp点评信息的影响程度。[4]他将这些评论与华盛顿州的销售数据进行了对比，发现Yelp上的评价每少一颗星，这家餐馆的收入就会下降5%~9%。

此外，消费者也可以通过比较购物网站（如Kayak和Booking.com）与商家斗智斗勇。正如《魔鬼经济学》（Freakonomics）一书中所讨论的那样，当一个互联网网站开始报道不同公司对定期寿险的定价时，这些价格就会急剧下降。如果一家保险公司收取的费用过高，顾客就会发现这一点，然后选择另一家保险公司。这能为消费者省下多少钱呢？每年10亿美元！

换句话说，互联网数据可以告诉企业应避开哪些顾客，又应该剥削哪些顾客；也可以告诉顾客他们应跳过哪些企业，又是哪些企业在试图剥削他们。迄今为止，大数据推动了消费者和企业之间的斗争，但我们必须确保这一斗争公平。

授权政府的危险

当阿德里安娜·多纳托（Adriana Donato）的前男友出现在一个生日聚会上时，她知道他十分沮丧。她知道他很狂躁，她也知道他曾经与抑郁症抗争过。当他说要载她一程的时候，有一件事多纳托这个20岁的动物学专业学生还蒙在鼓里。她不知道她的前男友，22岁的詹姆斯·斯托纳姆（James Stoneham），在过去的三个星期里一直在搜索如何谋杀他人和谋杀法的相关信息，偶尔还会搜索一下多纳托。

如果她知道这件事，大概就不会上他的车了，很可能那天晚上她也就不会被刺死。

在电影《少数派报告》（Minority Report）中，心理学家与警方合作，成功阻断多起犯罪行为的发生。我们是否也应该让大数据为警方所用以阻止犯罪行为的发生呢？多纳托是否至少应该提前被告知她前男友曾搜索过违禁内容呢？警方是否应该在悲剧发生前就审讯斯托纳姆呢？

必须承认，越来越多的证据表明与犯罪活动有关的谷歌搜索确实和犯罪活动有着千丝万缕的关系。克里斯蒂娜·玛–凯拉姆斯（Christine Ma-Kellams）、弗洛拉·奥尔（Flora Or）、白志贤（Ji Hyun Baek）和河内一郎（Kawachi Ichiro）等人表示，与自杀相关的谷歌搜索和一个州的自杀率密切相关。[5]如果有更多的人进行搜索时输入他们想做什么事，也就有更多的人会做这样的事。

那么，我们应该如何处理这些信息呢？有一个简单且毫无争议的点子：我们可以利用地区层面的数据来分配资源。如果一座城市的自杀相关搜索量激增，我们就可以提高这个城市的自杀预防意识。例如，市政府或非营利性组织可以播放商业广告来告知人们在什么地方可以获得帮助。

但是，我们应该非常不情愿走到这一步：在犯罪行为发生之前就追究个人的责任。首先，这似乎是对隐私的侵犯。无论是拥有数千或数十万人搜索数据的政府，还是拥有个人搜索数据的警察部门，在他们面前都有一道不可逾越的道德鸿沟。比如搜查某人的住所，在其面前就有一道不可逾越的道德鸿沟。无论是广告预防自杀，还是违背他人意愿将其送进精神病院，在其面前仍然有一道不可逾越的道德鸿沟。

然而，谨慎使用个人数据的理由甚至是超出道德层面的，还有一个数据理由。从试图预测一座城市的行为到试图预测一个人的行为，对数据学家来说是一个巨大的难题。

让我们暂且回到自杀的话题。每个月，美国有大约350万次搜索与自杀相关，其中大多数都透露出自杀的想法，例如“想自杀”“实施自杀”“如何自杀”。[6]换句话说，每个月每100个美国人中就会有不止一次自杀的相关搜索。这让人想起哲学家尼采的一句话：“自杀的想法是一个很大的安慰，凭借它可以熬过无数个黑夜。”谷歌搜索数据显示，自杀的想法真实存在且十分普遍，但是，每个月美国的自杀人数不到4 000。自杀的想法非常普遍，自杀行为却并非如此。因此，尽管有人在网上大呼小叫地喊着想一枪崩了自己的脑袋——如果不是出于这个原因，警察又怎么会专程赶去这些人家呢——也没有必要天天守在他们家门口，那样做没什么意义。

从理论上来说可能存在一些类别的搜索，这些搜索表明可怕的后续事件发生的可能性相当之大。例如，数据科学家未来可以建立一个模型，这个模型能够发现斯托纳姆关于多纳托的搜索是非常令人担忧的问题，至少从理论上来说建立这一模型是可能的。

2014年，大约有6 000个“如何杀死你的女朋友”的精确搜索和400起女友谋杀案。如果所有这些凶手事先都做了这个精确的搜索，那么在15个搜索“如何杀死你的女朋友”的人中，就有一人实践了这一想法。当然，杀死女朋友的许多人，或者是大多数人，并没有进行这个精确的搜索。这意味着这个特定搜索导致谋杀的真正可能性较小，而且可能非常小。

如果数据科学家能够建立一个可以体现对特定个体的威胁的模型，比如100个中有1个，我们就可以用这个信息来做些什么。至少受到威胁的人有权知道她有1%的可能遭到某一特定的人的杀害。

然而，总的来说，我们必须非常谨慎地使用搜索数据来预测个人层面的犯罪。数据清楚地告诉我们，虽然有很多可怕的搜索，但很少会有此类行为发生。迄今为止，还没有任何证据表明，政府可以通过检查这些搜索预测到十分可怕且发生率极高的行动。所以，在政府依靠数据干预个人犯罪层面，我们务必要小心谨慎。这不仅仅是出于道德或法律的原因，至少目前来说这也是出于数据科学的原因。

说谎 / 数据真相

如涉及版权，请著作权人与本网站联系，删除或支付费用事宜。