• 精选
  • 会员

04 多样性预测模型

2020年7月21日  来源:多样性红利 作者:【美】斯科特·佩奇 提供人:chenpo21......

许多日本餐馆经常在橱窗中展示菜品的塑料模型,以此来招徕顾客,宣扬自己价廉物美。但是,美国游客去日本旅游的时候,却往往有意回避这些餐馆。这些游客以为这些不是好餐馆,但事实证明,并不是这样。毕竟,就算是一间小小的华夫饼屋,要制作展览用的塑料香肠和塑料华夫饼也不是一件容易的事情。这些美国游客事实上是在通过解释来衡量未来的事件,他们正在做出预测。解释是对可能性的集合进行分类,而预测模型则根据解释来描述在某种情况下会发生的事情。

我们将某些云归入“雨云”这个类别,并正确地预测了降雨;把某种闪电归类为“热闪电”,并正确地预测未来几天都将会比较干燥。但是,与去日本旅游的美国游客一样,预测模型也可能导致我们误入歧途。日本几乎每家餐馆都有菜品的塑料模型。事实上,这种塑料菜品模型在日本是非常受欢迎的,以至于在东京那条以美食闻名的合羽桥街(Kappabashidori)上,你在鳞次栉比的餐馆里不仅可以品尝美食,还可以买到很多塑料菜品模型。

投票时,会运用预测模型;买房子时,也会运用预测模型。选择人生伴侣或生意上的合作伙伴时、投资时,也都会运用预测模型。在这些例子中,都要根据对世界的解释去预测未来。我们并不能确切地知道某个事件会不会发生以及如何发生,市场价格是上涨还是下跌,学习俄语是不是对自己的职业生涯有利,某个候选人会不会成为一个合格的总统。我们只是做出预测,并争取抓住机会。

为了预测或推断因果关系,先要解释自己面对的情况。在前面所举的雨云的例子中,当仰望天空,并试图预测下雨的可能性时,要对当前的天气做出解释:温度、风速、云的形成、时间和天空的颜色等都分别意味着什么。我们根据自己的经验,将与天气变化相关的一部分从现实世界中抽离出来。然后根据自己的知识和经验进行预测。解释影响预测,但并不决定预测。两个对当前情况给出相同解释的人,有可能做出完全不同的预测,因为他们的经验或直觉可能指向不同的推论。

随着时间的推移,会对预测模型加以改进和完善。我们可能有这样做的现实经济动机,也可能只是希望对现实世界有更深入的理解。预测模型当然需要不断磨砺和完善,但是不一定会导致不同人的解释完全趋同。只有在得到足够丰富数据的情况下,预测才可能会趋同。我们能够学习掌握火与热、冰与冷的因果关系,因为火总是很热,冰总是很冷。环境噪声越小,就越容易得出因果推断。如果只有51%的时候冰是冷的,我们可能很难在它是不是很冷这个问题上达成一致,就像在辩论全球是否真的变暖了的时候一样。

虽然大量噪声的存在阻碍了预测能力,但是有的时候,增加一点噪声却会起到意想不到的效果。噪声能够增强对模型的信心,而“信心倍增”则会带来实际的后果。如果想要教会某种动物做某个动作,那么增加一点随机性可能会有所帮助。例如,教一只狗学会坐,你不应该总是给它奖励。虽然大部分时间你应该给它奖励,但是每隔一段时间你应该停止给它奖励。你这样做,狗就会想:“我明明好好地坐着,为什么没有得到奖励?发生了什么事?他没有说让我坐吗?”这种思考有助于它的大脑在你给出的命令、请求与它的行为之间建立起更强、更牢固的联系。这种做法看上去可能像是在进行学术研究,但是事实并非如此。在大多数训狗课程中,都会讲授可变奖励计划。

无论是在嘈杂的环境中还是在安静的环境中学习,每个人的头脑中都运转着一组预测模型。在接下来的论述中,将假设这些预测在给定解释和可用信息下是尽可能精确的。当然,现实世界中的实际情况并非总是如此。进化论已经得到了一个多世纪的实证研究支持,但是还是有很多人不相信。一些政府计划,例如先行教育计划(Head Start),尽管大多数证据证明它们是成功的,但是还是存在很多批评者。1

进化论和先行教育计划之所以饱受争议,原因之一是它们是多维度的、高度复杂的。当从政策和行动到结果的联系链条变得复杂化之后,即便是专家也无法完全洞悉其内在机制。所以要进行简化。要使用解释,甚至连专家也在这样做。如果解释不同,就会导致不同的预测。当然,多样性的预测已经被证明是有益的。不过,在说明这种情况的原因之前,还要先详细地了解它的来源。

什么是预测模型

预测模型(predictive model)

预测模型是一种解释,并对由解释所创建的每个集合或类别进行预测。

预测模型的形式多种多样,包括系统动力学模型、回归模型、博弈论模型、因子分析模型和基于主体的模型,等等。模型简化了世界。事实上,你现在就“浸泡”在一个模型中。当然,“浸泡”在模型中,并不会把你的手软化。模型解释现实,然后输出结果。模型的输出往往采取提供预测的形式。因此在这里,我们要把注意力集中在预测模型上。

对于所有这些框架和概念之间的区别,必须有清晰的认识,为此,先来考虑预测模型与启发式的不同之处。一个预测模型能够告诉我们将会发生什么:“这天看起来好像要下雨了!”启发式则告诉我们应该怎么做:“下雨啦!得快点跑,找一个可以避雨的地方。”或者,启发式也可能告诉我们什么都不要做:“跑得再快也会被淋成落汤鸡!所以还是不紧不慢地走吧。”如果预测模型是思想,那启发式就是行动。

基于粗略解释的预测模型可能非常强大。在《眨眼之间》(Blink)一书中,马尔科姆·格拉德威尔(Malcolm Gladwell)阐明要成为专家,就要学会只根据几个特征就做出专家级的预测。不难看出,格拉德威尔其实是在描述基于简单解释的预测模型。2在他的书中举了很多例子。其中一个例子是说,一位专家在瞬息之间就判定一尊据称价值数百万美元的雕塑为赝品,尽管“科学分析”认为它是真货。还有一位专家约翰·弋特曼(5)只要观察已婚夫妇日常生活中的若干细节,就可以准确地预测他们的婚姻关系能否长期维持下去。格拉德威尔的著作普及了格尔德·吉仁泽和彼得·托德(Peter Todd)关于理性的思考。3运用预测模型框架,不仅可以说明这种快速判断为什么能够做到如此准确,而且可以揭示出,为什么在某些情形下,即便是最擅长“灵光一闪”的人都无法做出准确的预测。

正如格拉德威尔举的那些例子所表明的,不应该认为预测模型只适用于重要的事件,比如股票价格的变化或疾病的起因。事实上,我们几乎每次思考时都在应用预测模型。预测模型依赖于解释。比如,在预测电视节目何时达到收视高峰时,一个相当流行的预测模型依赖于对剧集的分类,而分类是根据剧本特征进行的。

就电视剧集而言,“跃过鲨鱼”(6)这类事件会因为很多原因而发生。这可能是一个事件,比如结婚、出生或死亡,也可能是节目中出现了某位特殊的客串明星,例如南希·里根(Nancy Reagar)出现在《不同的笔触》(Different?Strokes)一剧中。4在预测某个节目是否触及了“跃过鲨鱼”这样的临界点时,可以依靠不同的模型。有人认为,《美国偶像》是和孔庆翔(William Hung)这个严重走音的歌手一起“跃过鲨鱼”的。而其他一些人则认为,当保罗·安卡(Paul Anka)出现在嘉宾明星席上的那一刻起,《美国偶像》就开始走下坡路了。

为了更正式地阐述预测模型,我构造了一个名为“筛选成功”(Screening Success)的例子。与“跃过鲨鱼”相比,它也许不那么好玩,但是更容易理解。这个例子很重要,在之后分析聚合预测模型时,还会用到这个例子。

经验模型

为了说明粗略的预测模型是如何发挥作用的,先考虑一个以快速评估为常态的情形,那就是对电影剧本进行的评估。在洛杉矶,服务员、冲浪者、酒店门童、购物中心员工,甚至律师、医生和教授当中,都有很多人在撰写电影剧本,所占比例高得惊人。许多这样的剧本都是由电影制作公司的低层员工粗略地评估的,而且他们自己也可能正在写剧本。一些剧本被送到了高层手中,但是大多数剧本都只是在电脑屏幕前被那些低层员工匆匆浏览一下就扔进了垃圾桶。

在这个例子中,有两名电影制作公司的员工雷和玛里莲。他们承担的就是在电脑屏幕上阅读剧本并给出评价的任务。不妨假设,他们的职责是只接受那些会产生利润的剧本。对每个提交给他们的剧本,雷和玛里莲都可以客观地评定其“性”(S)和“暴力”(V)的级别。这两个维度的评定级别分为四类:无、低、中和高(见表4-1)。一个完整的电影视角要包含更多的维度,这种编码方法是一个解释。

表4-1 “性”和“暴力”的解释

?

为了使这个例子尽可能简单,假设存在一个从这些特征到剧本好(G)坏(B)的确定性映射,“好”是指剧本可以成为一部创造利润的电影,“坏”是指剧本应该被丢入垃圾桶。在这里,为了简化,只根据“性”和“暴力”的标准来评价剧本。表4-2给出了剧本性质对利润的映射。

表4-2 剧本性质对利润的映射

?

鉴于这个结构,如果有人知道上述映射,并能够追踪各剧本中“性”和“暴力”的程度,那么他就应该可以对某个剧本将会被评定为好还是坏做出完美的预测。假设雷和玛里莲做不到这一点,他们两人都没有同时考虑剧本“性”和“暴力”两方面性质的能力、时间或兴趣。假设雷只关注“性”的程度(见图4-1),而玛里莲只关注“暴力”的程度(见图4-2),我们把这两者都归类为投影解释。

?

图4-1 “性”的投影

?

图4-2 “暴力”的投影

要想将这些解释转化为预测模型,只需要给解释中的每一个集合附加上一个预测即可。假设雷读到了一个没有包含“性”内容的电影剧本,由于雷已经读过很多剧本,拥有丰富的经验,他知道这个剧本拍成电影后有75%的可能是无利可图的。同样,他还知道,涉及“性”程度低的剧本有75%的可能是坏的,而涉及“性”程度高或中等的电影有75%的可能是好的。

当然,雷并不一定总是对的,但关键是,公司之所以付他工资请他来做这件事情,并不是因为他的判断总是正确的,而是因为他能做到快速评估,他必须在眨眼之间就做出决断。雷的预测的总结如表4-3所示。这张表格描述了他的预测模型。该表的第一栏显示的是剧本“性”的分级。第二栏给出了雷所观察到的剧本的好坏,例如,在没有“性”的剧本中,3个“B”才有1个“G”。那个被评为“G”的电影剧本是没有“性”的、且包含了温和的暴力。

表4-3 雷的预测模型

?

同样,可以用表4-4来描述玛里莲的预测模型。

表4-4 玛里莲的预测模型

?

从表中可以看出,玛里莲的判断也有75%的概率是正确的。但是请注意,玛里莲不会和雷做相同的预测。在评估一个没有“性”但包含了强烈暴力内容的剧本时,雷预测它将失败,而玛里莲则预测它将成功。在这种情况下,雷的预测是正确的,而玛里莲的则不是。不过,如果我们看所有情况下的平均预测情况,那么玛里莲可能是正确的,而雷不是。

现在,除了雷和玛里莲之外,再增加一个剧本评估专家德博拉。德博拉使用了聚丛解释的方法,创建了一些允许在同一类别下存在两个属性的集合。投影解释将正方形拆分成行或列,而聚丛解释则将它拆分成不同形状的盒子。

为了说明如何给这个解释构建一个正确的框架,不妨先这样想象,德博拉是一个饮用大量健怡可乐的人,平时总是戴着时髦的眼镜,态度严肃。德博拉的解释将剧本分为三类:无趣、极端、和谐。德博拉的分类方法是,“性”和“暴力”等级均为低或者均为中的剧本是“无趣”的;“性”和“暴力”两者之间有一个等级为低或中,而另一个为高或无,则是“和谐”的;“性”和“暴力”两者没有一个等级为低或中,则是“极端”的(见表4-5)。

表4-5 德博拉的解释

?

假设德博拉的经验非常丰富,并假设她的预测可能更准确,那么德博拉的模型将会预测,和谐的电影剧本将是好的,而所有其他电影剧本都将是坏的。她的预测模型如表4-6所示。

表4-6 德博拉的预测模型

?

相对于雷和玛里莲的模型,德博拉的模型似乎有点奇怪。然而,只要把所有情况都核对一遍就可以看出,她也有75%的概率给出了正确的预测。她的预测与雷和玛里莲一样准确。由于这几个人在预测方面的概率都一样,他们都会很自信地坚持自己的预测模型。因此,即便是在必须做出相当好的预测的压力之下,人们也不一定会集中到某个共同的预测模型上。是的,选择压力,也就是所谓的适者生存,并不意味着集中到单一的预测模型。在一个竞争激烈的环境中,多样性依然可以存在,这时,多个预测模型可能都会达到差不多的准确程度。在分析选举的时候,20个专家可能有20种不同的方法。是俄亥俄州的福音派选民的支持,还是城市远郊居民的帮助,使小布什在2004年总统大选中胜出?两者都有一定道理。正如将在本书第2部分中看到的那样,当试图集结这些预测模型的预测时,这种多样性的存在是有益的。

理论模型

到目前为止讨论的模型,都假设这几位剧本审读专家是根据自己从经验中学到的东西进行预测的。但是,即使没有任何经验,有时也不得不进行预测。在这种情况下,就要根据理论模型来做出预测了。例如,在他们承担这份工作的第一天,玛里莲和雷肯定不得不依靠一些毫无经验基础的理论。这些理论既可能比完全随机猜测好不到哪里去,也可能相当准确,如果有恰当的逻辑支持的话。雷可能会提出这样一个理论,认为“性”程度为中或低的剧本是好的,并构建一个如表4-7所示的预测模型。

表4-7 雷的理论预测模型

?

不难看出,这个模型预测的准确率只有50%。事实上,雷只要通过抛硬币就可以得到同样的准确率,那样的话,他就不必再忍受有些剧本中可怕的对话或情节的折磨了。

这个例子虽然很简单,但是却告诉我们一个非常重要的道理:一种解释,即使它对特定对象或事件的表示是有意义的,仅凭这种解释本身也是不够的。一个解释可能刻画了一些维度或属性,它们可以揭示潜在的因果关系或相关性,但是,除非这个解释与一个准确的由经验锤炼过的预测模型相结合,否则它也不一定是有用的。

因此,可以对某种给定解释下的预测模型的最大准确度与给定的预测模型的准确度加以区分。从解释中得出的最准确的预测是,如果人们通过经验知道结果的真实概率分布,那么就可以做出准确的预测。正如已经看到的,一个特定理论的准确性不一定能达到这个最大值。另外,在一些情况下,给定解释下预测的最大准确度也可能不高。如果是这样的话,就不可能做出高度准确的快速评估。

换句话说,我们有的时候能够在眨眼之间就做出决断,有的时候却不能。假设从一个共同的视角开始,用它来构建出投影解释和预测模型。然后,在每个维度上都有了一个预测模型。这些预测模型有可能全都无效。如果是这样,眨眼之间做出的预测,也就是基于单一维度进行的快速评估将不会有效。“灵光一现”要求存在一个能够使任务变得容易的维度。正如格拉德威尔在《眨眼之间》一书中所描述的那样,夫妇双方相互“泼脏水”的确切证据是判断婚姻将以离婚而告终可能性的一个很好的预测指标。如果我们的解释只考虑了单一维度,比如某对夫妇是否会做出令人讨厌的、贬损对方的评论,就会使我们更加容易做出预测。

但是一般来说,对于某个给定的预测任务,这样的单一维度却很可能是不存在的。举一个简单的例子,假设要预测一家上市公司的股票价格是上涨还是下跌。如果仅根据该公司的市盈率、销售增长率、过去一年来股票价格变化的趋势等维度中的某个维度,我们对它的股票价格将会上涨还是下跌的预测准确度,将与随机抛硬币没有什么区别。任何单一维度都没有很高的预测价值,这是由市场逻辑所决定的。如果真的存在某个能够预测股价上涨的简单方法,肯定会有人找到它、利用它,从而抬高被低估的股票价格。出于这个显而易见的原因,股票市场上成功的投资者都要运用复杂的预测模型。我们无法在“眨眼之间”判断股价将会上涨还是下跌。

大量证据表明,大多数人的预测,甚至是专家的预测,都不如基于数据的回归模型预测准确。在《点球成金》(Moneyball)一书中,作者通过引用比利·比恩(Billy Beane)的例子,使这个特征事实广为人知。5比利·比恩利用回归分析来管理球队,结果将其他棒球队远远地抛在了后面。这并不是特例。200多项研究表明,简单的线性回归模型对未来的预测远远优于专家。6这些结果并不令人费解。专家也是人,也会像其他人一样受到各种偏见的影响。

在一项前后持续了10年之久的研究中,菲利普·泰洛克(Philip Tetlock)发现,专家无法准确预测复杂的经济和政治过程的结果。在进一步研究中,他还发现,那些囿于僵硬意识形态立场的专家,即所谓的“刺猬”型专家,比那些灵活的专家表现得更加糟糕。而且总的来说,大多数专家都过度自信了。7当然,几乎每个人都有过度自信的倾向,这是人类的天性。大多数人都觉得自己在大多数情况下应该高于平均水平。同时,泰洛克也发现,专家的预测比回归模型的预测效果更差,这与前人研究结果相似。

当然,对于泰洛克的研究结果,不必太过惊讶。必须记住,即便是专家,头脑里也只能装下有限的信息。在进行预测时,专家也最多只能考虑几个维度。他们可能会忽视重要的变量,有时候又会把不重要的变量包括进自己的预测模型。因此,当推断任务变得非常困难时,即便是专家也不得不依靠猜测,这时他们的预测可能不会比抛硬币好多少。

专家的预测不如回归模型精确,这个事实引发了进一步思考:既然如此,为什么还要利用专家的智慧来解决问题呢?为什么不干脆全部使用回归模型呢?人们,特别是专家,已经在利用回归模型了。成功的投资者、预测者和赔率制定者,这些真正的专家不仅仅拥有一种神秘的能力,也就是他们能够预感到可能会发生的事情,而且会大量收集和利用数据,他们一直在进行回归分析。但是,这些回归仍然基于人们所选择的变量,也就是我们所称的解释。因此,回归模型同样渗透了人的因素。回归模型的解释也会忽略某些变量,而将其他一些变量包括在内。鉴于可能存在的多样性解释,我们拥有许多不同的专家。而且,正如将会看到的,这种多样性是有益的。

多样性预测模型的力量

行文至此,应该对本章和前面介绍的诸多概念进行一番总结了,这有助于澄清它们之间的联系和区别。如果想预测什么东西,就必须有一些方法来表示某些实体,这些实体的结果正是所要预测的。视角给出的是一个全面的、完全的表示,但是在大多数情况下,人们不直接运用视角。我们运用的是基于视角的解释,也就是分类。在给定解释的情况下,可以根据经验或理论做出预测。把这些预测和解释一起称为预测模型。因此,预测模型将我们解释中的集合(或类别)映射到结果上。任何解释都有一个最精确的模型,但没有理由相信人们肯定能够用到这个模型。毕竟,我们只是人。

作为人类,不同人选择的解释是不同的。正如在“筛选成功”的例子中看到的,预测模型可以彼此不同。雷可能认为某个剧本是好的,但玛里莲却认为不是。有时粗略的预测模型运行得很好,有时却相当糟糕。如果面对一个复杂的预测任务,那么基于粗略解释的预测模型在大多数情况下都是不准确的。但是,正如在本书的第2部分中将会讨论到的,即使单个预测可能是不准确的,多样性的、不准确的预测集合也可能提供准确的预测。

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000