do算子和后门标准

2020年7月10日　　来源：为什么：关于因果关系的新科学　作者：[美]朱迪亚·珀尔；[美]达纳·麦肯齐　提供人：kangtao76......

为了理解后门标准，我们需要先直观地了解信息是如何在因果图中流动的，这对我们后续的理解会有所帮助。我喜欢将连接看作一个管道，这个管道将信息从起点X传递到终点Y。记住，正如我们在第三章看到的那样，信息传递是双向的，既在因果方向传递，也在非因果方向传递。

事实上，非因果路径恰恰是混杂的根源。大家应该还记得我将混杂定义为任何使P（Y|do（X））不同于P（Y|X）的因素。do算子会清除指向X的所有箭头，这样它就可以防止有关X的任何信息在非因果方向流动。随机化处理具有相同的效果。如果我们选择合适的变量进行统计调整，那么这种统计调整也具有相同的效果。

在上一章，我们研究了接合的3种形式（或3条信息流通规则），这些规则告诉了我们应该如何阻断信息在某个接合中流动。为了加以强调，我现在重复一下这些规则：

（a）在链接合A→B→C中，控制B可防止有关A的信息流向C或有关C的信息流向A。

（b）同样，在叉接合或混杂接合A←B→C中，控制B可以防止有关A的信息流向C，或有关C的信息流向A。

（c）最后，在对撞接合A→B←C中，信息流通规则与前两种是完全相反的。变量A和C原本是独立的，所以关于A的信息不能告诉你任何关于C的信息。但是，如果你控制了B，由于辩解效应的存在，信息就会开始在“管道”中流通。

我们还必须牢记另一条基本规则：

（d）控制一个变量的后代节点（或替代物）就如同“部分地”控制变量本身。控制一个中介物的某个后代节点意味着部分地关闭了信息管道；控制一个对撞变量的某个后代节点则意味着部分地打开了信息管道。

现在，如果我们有更长的管道和更多的接合单元，就像这样：

A←B←C→D←E→F→G←H→I→J

那么我们应该如何阻断信息的流通？答案很简单：如果这条路径中的一个接合被阻断，那么J就无法通过这条路径“找到”A。因此，我们有许多方式来阻断A和J之间的交流：控制B，控制C，不控制D（因为它是一个对撞变量），控制E，等等，并且我们只需要做到其中的任何一项就足够了。这就是为什么常规统计过程——控制我们可以测量的一切，造成了如此严重的误导。事实上，对这条路径来说，在我们不去控制任何变量的前提下，该路径本身就是被阻断的！D和G的对撞在没有任何外部帮助的情况下阻断了这条路径。而控制D和G将打开此路径，使J能够听从于A。

最后，为了去除X和Y中的混杂，我们只需要阻断它们之间的每个非因果路径，而不去阻断或干扰所有的因果路径就可以了。更确切地说，我们将后门路径（back-door path）定义为所有X和Y之间以指向X的箭头为开始的路径；如果我们阻断了所有的后门路径（因为这些路径允许X和Y之间的伪相关信息在管道中流通），则我们就完成了对X和Y的去混杂。如果我们试图通过控制某一组变量Z来实现这一点，那么我们还需要确保Z的任何成员都不是X的后代，否则我们就可能部分或完全地关闭这条X与Y之间的因果路径。

这就是关于混杂和去混杂的一切！有了这些规则，去混杂就会变得非常简单和有趣，你可以把它当成一个游戏。我鼓励你用下面几个例子练习一下，目的是掌握它的窍门，体会一下这种方法是多么简单明了。如果你仍然发现它很困难，那也不用担心，因为已被开发出来的许多算法都可以在瞬间破解所有这些问题。在所有此类问题中，我们的目标都是指定一组变量，它们将能够去除变量X和Y中的混杂。换言之，它们首先不应该是X的后代，其次必须能够阻断所有的后门路径。

游戏1

这个例子很简单！该图示中没有箭头指向X，因此也就没有后门路径。在此例中，我们不需要控制任何事物。

不过，一些研究人员可能会认为B是混杂因子。首先，B与X相关联，因为存在链接合X→A→B。其次，在X=0的个体中，B与Y相关联，因为存在一个不经过X的开放路径B←A→Y。最后，B不在因果路径X→A→Y上。因此，它满足了混杂的“经典流行病学定义”的三个条件。但是，它并没有通过后门标准，因此控制B将导致灾难。

游戏2

在这个例子中，你应该把A、B、C、D看作“预处理”变量。（与以往的例子一样，处理是X。）现在存在一个后门路径X←A→B←D→E→Y。这条路径已经在B处被一个对撞接合挡住了，所以我们仍然不需要控制任何事物。许多统计学家会选择控制B或C，认为只要在实施处理（X）之前完成了控制，这样做就没有坏处。最近，一位颇具影响力的统计学家甚至这样写道：“逃避对观察到的协变量进行变量控制……是一种非科学的欺诈。”他错了。控制B和C或以B或C为条件是一个糟糕的想法，因为这么做会打开非因果路径，从而引入X和Y之间的混杂。请注意，在这种情况下，我们可以通过控制A或D重新关闭路径。这个例子表明，去混杂可能有不同的策略。一些研究者可能会选择采取简单的方式，不控制任何事物；而另一些较为传统的研究者可能会选择控制C和D。两者都是正确的，得到的结果也应该是相同的（前提是我们依据假设建构的模型是正确的，并且我们有足够大的样本）。

游戏3

在游戏1和2中，你不必做任何事情就能阻断非因果路径，但这一次，你需要做出行动了。该图示中存在一个从X到Y的后门路径，X←B→Y，只能通过控制B来阻断。如果B无法被观测，那么不进行随机对照试验的话，我们就无法估计X对Y的因果效应。在这种情况下，一些（事实上是大多数）统计学家会选择控制A，将其作为不可观测的变量B的替代物，但这种做法只能部分消除混杂偏倚，并引入新的对撞偏倚。

混杂

如涉及版权，请著作权人与本网站联系，删除或支付费用事宜。