• 精选
  • 会员

do算子和后门标准

2020年7月10日  来源:为什么:关于因果关系的新科学 作者:[美]朱迪亚·珀尔;[美]达纳·麦肯齐 提供人:kangtao76......

为了理解后门标准,我们需要先直观地了解信息是如何在因果图中流动的,这对我们后续的理解会有所帮助。我喜欢将连接看作一个管道,这个管道将信息从起点X传递到终点Y。记住,正如我们在第三章看到的那样,信息传递是双向的,既在因果方向传递,也在非因果方向传递。

事实上,非因果路径恰恰是混杂的根源。大家应该还记得我将混杂定义为任何使P(Y|do(X))不同于P(Y|X)的因素。do算子会清除指向X的所有箭头,这样它就可以防止有关X的任何信息在非因果方向流动。随机化处理具有相同的效果。如果我们选择合适的变量进行统计调整,那么这种统计调整也具有相同的效果。

在上一章,我们研究了接合的3种形式(或3条信息流通规则),这些规则告诉了我们应该如何阻断信息在某个接合中流动。为了加以强调,我现在重复一下这些规则:

(a)在链接合A→B→C中,控制B可防止有关A的信息流向C或有关C的信息流向A。

(b)同样,在叉接合或混杂接合A←B→C中,控制B可以防止有关A的信息流向C,或有关C的信息流向A。

(c)最后,在对撞接合A→B←C中,信息流通规则与前两种是完全相反的。变量A和C原本是独立的,所以关于A的信息不能告诉你任何关于C的信息。但是,如果你控制了B,由于辩解效应的存在,信息就会开始在“管道”中流通。

我们还必须牢记另一条基本规则:

(d)控制一个变量的后代节点(或替代物)就如同“部分地”控制变量本身。控制一个中介物的某个后代节点意味着部分地关闭了信息管道;控制一个对撞变量的某个后代节点则意味着部分地打开了信息管道。

现在,如果我们有更长的管道和更多的接合单元,就像这样:

A←B←C→D←E→F→G←H→I→J

那么我们应该如何阻断信息的流通?答案很简单:如果这条路径中的一个接合被阻断,那么J就无法通过这条路径“找到”A。因此,我们有许多方式来阻断A和J之间的交流:控制B,控制C,不控制D(因为它是一个对撞变量),控制E,等等,并且我们只需要做到其中的任何一项就足够了。这就是为什么常规统计过程——控制我们可以测量的一切,造成了如此严重的误导。事实上,对这条路径来说,在我们不去控制任何变量的前提下,该路径本身就是被阻断的!D和G的对撞在没有任何外部帮助的情况下阻断了这条路径。而控制D和G将打开此路径,使J能够听从于A。

最后,为了去除X和Y中的混杂,我们只需要阻断它们之间的每个非因果路径,而不去阻断或干扰所有的因果路径就可以了。更确切地说,我们将后门路径(back-door path)定义为所有X和Y之间以指向X的箭头为开始的路径;如果我们阻断了所有的后门路径(因为这些路径允许X和Y之间的伪相关信息在管道中流通),则我们就完成了对X和Y的去混杂。如果我们试图通过控制某一组变量Z来实现这一点,那么我们还需要确保Z的任何成员都不是X的后代,否则我们就可能部分或完全地关闭这条X与Y之间的因果路径。

这就是关于混杂和去混杂的一切!有了这些规则,去混杂就会变得非常简单和有趣,你可以把它当成一个游戏。我鼓励你用下面几个例子练习一下,目的是掌握它的窍门,体会一下这种方法是多么简单明了。如果你仍然发现它很困难,那也不用担心,因为已被开发出来的许多算法都可以在瞬间破解所有这些问题。在所有此类问题中,我们的目标都是指定一组变量,它们将能够去除变量X和Y中的混杂。换言之,它们首先不应该是X的后代,其次必须能够阻断所有的后门路径。

游戏1

这个例子很简单!该图示中没有箭头指向X,因此也就没有后门路径。在此例中,我们不需要控制任何事物。

不过,一些研究人员可能会认为B是混杂因子。首先,B与X相关联,因为存在链接合X→A→B。其次,在X=0的个体中,B与Y相关联,因为存在一个不经过X的开放路径B←A→Y。最后,B不在因果路径X→A→Y上。因此,它满足了混杂的“经典流行病学定义”的三个条件。但是,它并没有通过后门标准,因此控制B将导致灾难。

游戏2

在这个例子中,你应该把A、B、C、D看作“预处理”变量。(与以往的例子一样,处理是X。)现在存在一个后门路径X←A→B←D→E→Y。这条路径已经在B处被一个对撞接合挡住了,所以我们仍然不需要控制任何事物。许多统计学家会选择控制B或C,认为只要在实施处理(X)之前完成了控制,这样做就没有坏处。最近,一位颇具影响力的统计学家甚至这样写道:“逃避对观察到的协变量进行变量控制……是一种非科学的欺诈。”他错了。控制B和C或以B或C为条件是一个糟糕的想法,因为这么做会打开非因果路径,从而引入X和Y之间的混杂。请注意,在这种情况下,我们可以通过控制A或D重新关闭路径。这个例子表明,去混杂可能有不同的策略。一些研究者可能会选择采取简单的方式,不控制任何事物;而另一些较为传统的研究者可能会选择控制C和D。两者都是正确的,得到的结果也应该是相同的(前提是我们依据假设建构的模型是正确的,并且我们有足够大的样本)。

游戏3

在游戏1和2中,你不必做任何事情就能阻断非因果路径,但这一次,你需要做出行动了。该图示中存在一个从X到Y的后门路径,X←B→Y,只能通过控制B来阻断。如果B无法被观测,那么不进行随机对照试验的话,我们就无法估计X对Y的因果效应。在这种情况下,一些(事实上是大多数)统计学家会选择控制A,将其作为不可观测的变量B的替代物,但这种做法只能部分消除混杂偏倚,并引入新的对撞偏倚。

混杂

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000