• 精选
  • 会员

因果模型与“大数据”(2)

2020年7月10日  来源:为什么:关于因果关系的新科学 作者:[美]朱迪亚·珀尔;[美]达纳·麦肯齐 提供人:kangtao76......

假设我们想了解一个在线广告(X)对消费者购买产品(Y,比如冲浪板)的可能性的影响。我们有来自5个不同区域的研究数据:洛杉矶、波士顿、旧金山、多伦多和檀香山。现在,我们想估计一下该广告在阿肯色州的有效性。遗憾的是,以往研究的每个总体和研究范示都各有其特性。例如,洛杉矶研究的总体的平均年龄比我们的目标总体的年龄要小,旧金山研究的总体在点击率上的表现与其他地区有所不同。图10.1显示了每个总体和每项研究的独特性。那么,我们能否将这些关系不密切甚至不相干的研究数据结合起来,估计出阿肯色州的广告效果呢?我们可以在不考虑阿肯色州的任何数据的情况下估计出其广告效果吗?或者,我们是否可以仅仅通过测量一小组变量或进行一项初步的观察性研究来估计出阿肯色州的广告效果呢?

图10.1 可迁移性问题

图10.2将这些已有研究涉及的总体和目标总体之间的差异转换为图示形式。变量Z代表年龄,是混杂因子,因为年轻人可能更容易看到广告,即使没看到广告,他们也更有可能购买产品。变量W表示点击率,这是一个中介物,是将“看到广告”转化为“购买产品”的必经之路。指标S在所有情况中都代表“差异生成”变量,它是一个假设变量,表示的是决定了两个群体间的差异的特征。例如,在洛杉矶的因果图[见图10.2(b)]中,指标S指向Z,年龄,这与图10.1(b)中的信息是相符的。在其他城市的因果图中,该指标指向的变量均为图10.1所描述的各个总体的显著特征。

图10.2 已有研究中的总体和目标总体之间的差异,以图示形式表示

对于广告公司来说,好消息是目前计算机已具备处理这一复杂的“数据融合”问题的能力。在do演算的指导下,计算机能告诉我们可以使用哪些已有的研究、借助哪些手段来回答问题,以及在阿肯色州收集哪些变量的数据可以用来支持我们的结论。在某些情况下,效应可以直接迁移,我们不需要再做额外的工作,甚至无须踏入阿肯色州就可以得到结论。例如,阿肯色州的广告效应应该和波士顿的一样,因为根据图示,波士顿[见图10.2(c)]仅在变量V方面不同于阿肯色州,而该变量不影响处理X或结果Y。

而对于其他研究所得出的效应,我们就需要重新对数据赋权。例如,对于洛杉矶的研究[见图10.2(b)],我们需要考虑其与目标总体的不同年龄结构。有趣的是,尽管W不一致,但只要我们能测量阿肯色州的变量X、W、Y的数据,则我们就可以根据多伦多[见图10.2(e)]的试验性研究估计出阿肯色州的广告效果。

值得注意的是,我们也会发现在一些案例中,我们无法将任何一项以往的相关研究所得出的效应迁移过去,但我们可以从这些效应的某种形式的组合中估计出目标总体的效应。而且,结论不能迁移的研究也不是完全无用的。例如,由于存在路径S→Y,檀香山的研究[见图10.2(f)]得出的效应就是不可迁移的。但是,由于路径X→W不受S的影响,因此檀香山研究中的数据可以用来估计P(W|X)。将这个估计与从其他研究中得出的P(W|X)相结合,我们就能提升该子表达式的精确度。而通过将此类子表达式精心结合起来,我们或许就可以得到目标效应总量的精确估计。

在简单的情况中,我们用直觉就可以判断出这些结果是合理的,但当图表变得更加复杂时,我们就需要一种形式化的方法来辅助我们做出判断。对此,do演算提供了一种确定可迁移性的一般标准。该规则非常简单:如果你可以执行一系列有效的do演算(运用第七章中的规则),将目标效应的表达式转换为一个新的表达式,其中任何涉及S的因子都不包含do算子,则这一估计值就是可迁移的。其遵循的逻辑很简单:任何此类因子都可以从现有数据中估计出来,且不受差异因子S的影响。

针对可迁移性问题,伊莱亚斯·巴伦拜姆的尝试与伊利亚·斯皮塞解决干预问题的做法很类似。他开发了一种算法,可仅凭借图解标准自动确定你所寻求的效应是否可迁移。换句话说,它可以告诉你能否实现将do算子从S中剥离出去的操作。

在很多研究中,受试者的行为都是无法被强制的,因而我们很难保证已有研究的总体与我们的目标总体相同。而巴伦拜姆的研究结果之所以振奋人心,是因为它将这种在以往被视为威胁可迁移性的因素转化为对于这些研究的一个绝佳的利用机会。我们不再将总体之间的差异视为对研究的“外部有效性”的威胁,而是掌握了一种有效的方法,得以在之前看似无望的情况下确立有效性。正是因为生活在大数据时代,我们才有机会接触到关于诸多研究和辅助变量(如Z和W)的信息,从而能够将已有的研究结果从一个总体迁移至另一个总体。

顺便一提,针对另一个长期困扰统计学家的问题——选择偏倚,巴伦拜姆也得出了类似的结论。当研究的样本与目标总体在某些相关方式上不一致时,这种偏倚就会出现。这听起来很像一个可迁移性问题——的确如此,只不过我们需要先做一个非常重要的修正:我们要绘制一个指向S的箭头,而不是绘制一个从指示变量S指向受影响变量的箭头。在此例中,我们认为S代表的是“研究选择”。例如,在伯克森偏倚的例子中,如果我们的研究只以住院患者为观察对象,那么我们就相当于画了一个从住院治疗指向S的箭头,其表明住院是我们的研究选择的一个因。在第六章,我们曾将这种情况仅仅视为对研究有效性的威胁。但现在,我们可以再次把它看成一个机会。如果我们掌握了选择的机制,我们就可以为我们的研究补充受试者,或者收集正确的去混因子数据集,并通过适当的重新加权或公式调整来克服偏倚。巴伦拜姆的工作让我们可以利用因果逻辑和大数据创造出以前无法想象的奇迹。

通常,像“奇迹”和“无法想象”这样的词在科学论述中是非常罕见的,读者可能会怀疑我是不是有点儿过于激动了,但我自认为我使用这些词的理由是充分的。自从唐纳德·坎贝尔和朱利安·斯坦利于1963年确认并定义了“外部有效性”这一术语以来,它作为对实验科学的威胁已经存在了至少半个世纪。我与许多讨论过这个题目的专家和知名作家交流过。令我吃惊的是,他们中没有一个能够解决图10.2所展示的迁移问题中的任何一个小问题。我称它们为“小问题”,是因为它们易于描述,易于解决,且易于证明给定的解决方案是否正确。

目前,对“外部有效性”的研究完全专注于对效度威胁的罗列和分类,而不是与之做斗争。事实上,这一长久存在的威胁已经令人丧失了与之斗争的勇气,以致人们不再相信这种威胁是可以解除的。那些不习惯使用图示模型的专家发现,设置额外的威胁比尝试解决某个威胁看起来更容易。因此我希望用像“奇迹”这样的语言来唤醒我的同事,让他们将此类问题看作一种智力挑战,而非绝望的理由。

我当然希望我能为读者展示一个成功的个案研究,该研究包含复杂的可迁移性问题,同时还存在一个需要克服的选择偏倚。但我所提到的这些技术目前还很新,尚未得到普及。不过我相信,过不了多久,研究者们就会发现巴伦拜姆算法的力量,而随后,外部有效性那神秘而恐怖的形象就会像此前的混杂问题一样烟消云散。

大数据 / 人工智能

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000