现在,我必须将同样的透明性标准应用于我自己的方法,同时再多谈一些结构因果模型所体现的假设。
还记得我之前讲述的跟亚伯拉罕有关的故事吗?得到所多玛即将毁灭的消息,亚伯拉罕的第一反应是寻找剂量—响应关系,或响应函数,将城市的罪恶与惩罚联系起来。这是一种非常好的科学本能,但我怀疑,我们当中很少有人能足够冷静地做出这种反应。
响应函数是赋予结构因果模型处理反事实的能力的关键因素。它隐含在鲁宾的潜在结果范式中,同时又是结构因果模型与贝叶斯网络(包括因果贝叶斯网络)的一个主要区别点。在概率贝叶斯网络中,给定Y的父变量的观测值,则箭头指向Y就表示Y的概率由Y的条件概率表所支配。因果贝叶斯网络也是如此,不同之处在于给定的是对父变量的某种干预。两种模型都指定了Y的概率,而非指定Y的取值。而在结构因果模型中,我们没有条件概率表,指向Y的箭头只简单地表示Y是其父变量和外生变量UY 的一个函数:
Y=fY (X,A,B,C,…,UY ) (8.4)
因此,亚伯拉罕的本能是可靠的。要将非因果贝叶斯网络转变为因果模型,或者更准确地说,要让其能够回答反事实的问题,我们需要在每个节点上建立剂量—响应关系。
这一认识对我来说也来之不易。在深入研究反事实之前,我也曾花费了很长一段时间尝试用条件概率表来建立因果模型。我面临的其中一个障碍是循环模型 [6] ,它完全排斥条件概率公式;另一个障碍是找不到一种符号可以用来区分概率贝叶斯网络与因果贝叶斯网络。1991年,我突然想到,如果我们将Y视作其父变量的一个函数,并用UY 这个表达式概括所有关于Y的不确定性,那么所有的困难就都烟消云散了。当时,这一想法的产生似乎标志着我背叛了自己的学说。在致力于人工智能领域的概率研究数年之后,我竟然会提议后退一步,使用一个非概率的、确定性的模型。我仍然记得当时我的学生丹·盖革怀疑地问道:“确定性方程?真正的确定性吗?”这就好像史蒂夫·乔布斯告诉别人他要去买一台PC(个人电脑)而不是Mac(苹果电脑)一样。(别忘了,那可是1990年!)
表面上看,这些方程没有什么革命性。20世纪50年代和60年代以来,经济学家和社会学家一直在使用此类模型,并称它们为结构方程模型。但这个名称本身就暗示了对于方程的因果解释会引发争论和困扰。随着时间的推移,经济学家逐渐遗忘了这样一个事实:创建这一模型的先驱,经济学家特里夫·哈维默和社会学家奥蒂斯·达德利·邓肯提出该模型的初衷是让研究者用它来表示因果关系。经济学家们开始将结构方程与回归直线相混淆,从而只保留了形式而剥离了实质。例如,1988年,当大卫·弗里德曼向11位结构方程模型的研究者提出挑战,要求他们解释如何将干预融入结构方程模型,结果没有一个人可以做到。他们可以告诉你如何估计数据中的系数,但他们不能解释为什么要费心去估计这些系数。如果说我在1990年至1994年间所提出的响应函数解释有什么新意的话,那也只是将哈维默和邓肯最初的意图进行了还原和形式化,并在他们的门徒面前展示了一系列在遵循创建者用模型表示因果关系这一初衷的前提下得到的“大胆”的结论。
人们认为其中一些结论着实令人震惊,即使是哈维默和邓肯也会有同样的感受。举一个例子,我曾提出,对于每一个结构方程模型,无论它有多么简单,我们都可以据其计算出所有关于模型所包含的变量的反事实概率。正是遵循这个想法,我们才得以计算出爱丽丝在接受大学教育的情况下的潜在工资水平。但即使是在今天,现代经济学家仍然没能消化这个结论。 [7]
除了简称中间的字母不同外,结构方程模型(SEMs)与结构因果模型(SCMs)的另一个重要区别是,结构因果模型中的因果关系不一定是线性的。结构因果模型分析所用到的方法对非线性函数、线性函数和离散变量、连续变量同样有效。
线性结构方程模型具有许多明显的优点和缺点。一方面,从方法论的角度看,它们非常简单。通过线性回归,我们可以直接从观测到的数据中估计因果效应,而且目前已有许多针对此类模型的统计分析软件包可供我们选择使用。
另一方面,线性模型不能表示像剂量—响应函数这样的非线性关系。它们不能表示阈值效应,例如一种药物,其剂量增加到一定程度之后就不再起效或增效了。它们也不能表示变量之间的相互作用。例如,线性模型不能描述一个变量增强或抑制另一个变量的效果的情况。(例如,学历也许可以通过指导个体从事升职更快、年薪增长更快的工作,而增强工作经验的作用效果。)
虽然关于何种假设更恰当的辩论总是不可避免的,但我们主要想传达的信息很简单:庆祝!如果我们有一个完全指定的结构因果模型,其包含一张因果图且箭头背后的所有函数都是已知的,我们就可以回答任何反事实的问题。即使我们只有部分指定的结构因果模型,其中的一些变量是隐藏的或其中的一些剂量—响应关系是未知的,在许多情况下我们仍然可以回答关于反事实的问题。我将在接下来的两节给出一些例子。