2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > 文献荐读 | 倾向值匹配与因果推论:方法论述评(2)

文献荐读 | 倾向值匹配与因果推论:方法论述评(2)

时间:2023-03-24 06:17:19

相关推荐

文献荐读 | 倾向值匹配与因果推论:方法论述评(2)

管理学季刊

来源:胡安宁. 倾向值匹配与因果推论:方法论述评[J]. 社会学研究, (1):221-242.版权归作者所有

倾向值匹配与因果推论

倾向值匹配后的结果不仅仅指出了变量之间有联系,还进一步确 立了二者之间的因果性。这种方法论上的优势可以从科技哲学和统计 学两个方面予以阐释。

1科技哲学角度的阐释

倾向值匹配对因果性结论的支持首先依据的是科技哲学领域内对 因果关系的理论探讨。当我们谈及因果性的时候,我们往往会回归到 密尔对求同法( method of agreement) 及求异法 ( method of differences) 的讨论( 彭玉生, ; Mill, 2002/1984; Sobel, 1995, 1996) 。求同法是 指在一个群体中所有人都在两个变量上取值相同( 例如所有人都上了 大学,同时所有人都是高智商) 而在其他变量上取值不同( 他们不全是 女性,不全是农村居民,等等) ,那么这两个变量之间( 大学教育和智力 水平) 就具有因果关系。求异法是指两个个体在因变量上的取值不 同,而在某个自变量之外的其他自变量上的取值相同,则那个取值不同 的自变量和因变量之间存在因果关系。正如彭玉生所论述的那样,密 尔的这两种探索因果关系的方法对后来的统计实验设计有着巨大影响 ( 彭玉生, ) 。无论是求同法还是求异法,二者都要求对关键自变 量之外的其他自变量进行考察。只有其他自变量满足特定的条件时 ( 求同法要求其他自变量的取值都不一样,而求异法要求其他自变量 的取值都一样) 我们才能够确定某种因果关系。这实际上是引入了 “控制”的思想,即只有“控制”了其他变量,我们才能够真正确定我们关心的两个变量之间存在因果关系。

从“控制”的角度出发,倾向值匹配十分巧妙地完成了对多个混淆变量的控制。我们可以从一个混淆变量的情况谈起:假定只有个人智力水平混淆了大学教育和收入之间的关系。一个比较直观的控制个人智力的办法是将个人智力这一变量细分( sub-classification)成不同层次以保证每一个层次中的人的个人智力水平近似。然后我们在各个层次内部观察大学教育和收入的关系,最后将这些关系综合起来( Rubin, 1997)。如果存在两个混淆变量(例如家庭经济背景好坏和个人智力高低),我们可以将这两个变量交互分成 2x2 个小组,组内个体在这两个变量上的取值都是一样的(家庭背景好且智力高、家庭背景好且智力低、家庭背景不好且智力高,以及家庭背景不好且智力低),在每组内部观察大学教育和收入的关系然后综合起来。至此,通过细分的方法,我们完成了“控制”混淆变量的工作。但随着混淆变量越来越多,这种细分法就变得十分不方便了。例如,如果我们要控制5 个混淆变量,每个变量有5 个取值水平,我们就需要划分55 = 3125 个小组。很快我们的数据样本量就不够保证每一组都有个体。倾向值匹配的办法巧妙地解决了这个多混淆变量下的“多维”( multiple dimensional)问题:它不再关注每个需要控制的混淆变量的具体取值,而是转而关注将这些变量纳入 Logistic 回归方程后预测出来的倾向值取值。只要保证倾向值匹配,这些所有需要控制的混淆变量就都考虑到了( Rosenbaum & Rubin, 1983)。这样做实际上是将对多个混淆变量的控制转为对倾向值的控制从而达到“降维”( dimension reduction)的目的。换句话说,无论有多少需要控制的混淆变量,我们都能够通过倾向值匹配的方法将它们控制,从而帮助我们得出因果性结论。因此,从“控制”的角度出发,倾向值匹配法很好地解决了多混淆变量时的控制问题,从而支持了因果推论。

2统计学角度的阐释

倾向值匹配的因果推论功能也能通过统计学视角进行阐释。这里我们需要引入反事实框架( counterfactual framework)这一统计学理论。反事实( counter facts)是指相反情境下的某种状态。例如,一群病人在一个实验中被分到实验组接受新药物治疗。这些人症状的减轻或加重是我们能够观察到的“事实”。而“反事实”则是指“假设”这同一群病人当时不是被分到实验组而是对照组,即没有接受新药物治疗,那么他们的症状会是什么样子。自变量(新药)对于症状的因果性效果在统计学意义上就是指这“同一群人”在实验组时的症状和在对照组时的症状之间的差异。换句话说,统计学上的因果关系是可观察到的“事实”与其“反事实”之间的差异。从反事实的框架出发,因果性的关系可以表示为:

在这个公式里,Τ是指因果关系;π是指所有调查对象中在实验组中的比例,而1 -π也就表示了所有调查对象中在对照组的比例(例如 1/3 是大学生,那么π= 1/3,而没上大学的人的比例就是1 -π= 2/ 3) ; w 是一个二分变量,其中1 代表个体在实验组而0代表个体在对照组; Y1 和 Y0分别指代实验组和对照组的成员在因变量上的取值。E 则是取平均值的意思。在上述公式中, E ( Y1 | w =1)或 E ( Y0 | w = 0)是可观测到的事实,而 E( Y1 |w =0)和 E( Y0 |w =1)则是反事实。①因果关系 T 就表示为实验组中的个体其“事实”与“反事实”之间的差异———即 E( Y1 |w = 1)- E( Y0 | w = 1)———与对照组中的个体其“事实”与“反事实”之间的差异———即 E( Y1 |w =0)- E( Y0 |w =0)———的加权平均值(权重分别为π和1 -π)。

但问题在于,我们永远也不可能观测到反事实是什么,因为在某项特定的研究中,某一群人只可能在实验组或对照组,而不能同时在两组中出现。这被称为“因果推论的基本问题”( Holland, 1986)。为了做出因果推论,我们需要用可观测到的 E( Y1 | w =1)和 E( Y0 | w = 0)来简化上面的因果推论公式。具体而言,我们希望能够满足以下条件,这在统计学上称为“非混淆假设”( unconfoundedness assumption) :

不难看出,如果满足非混淆假设,反事实框架下的因果推论公式就简化为:

如果简化因果推论公式右边的两项均能观测到,我们就能做出因果性结论,因此,从反事实框架出发,能否做出因果推论主要取决于非混淆假设是否满足。①随机化是统计学中常用的办法,由于实验个体是通过随机方式分配到实验组和对照组中的,w 本身就和最后的实验结果 Y1 或 Y0没有关系了。②换句话说,无论 w =0还是 w =1, E( Y1)或 E( Y0)的值都是固定的,进而 E( Y1 |w =0) = E( Y1 |w =1)且 E( Y0 |w =0) = E( Y0 |w =1)。但是,对基于调查资料的社会学研究来讲,我们做不到随机化。为了满足非混淆假设,我们能做的是尽可能控制混淆变量,并保证这些变量一旦被控制起来, w 就能够近似地和 Y1 或Y0保持独立,换句话说,我们希望做到:

上式表明,只要能够找到并控制混淆变量 X,我们就能够近似地做到 w 独立于 Y。在倾向值匹配中,所有的这些 X 通过Logistic 回归总结成为一个特定的倾向值 P,而非混淆假设就是通过控制倾向值 P 来满足的。即:

至此,通过控制倾向值,我们可以“近似地”满足统计学反事实框架下的非混淆假设从而做出因果推论。之所以说“近似”,是因为控制 倾向值的效果毕竟不是真正的随机化。很多时候我们很难知道是否已 经控制了需要控制的“所有”混淆变量。正因为如此,在完成倾向值匹 配以后我们通常需要进行敏感性分析。在这个意义上说,倾向值匹配 只是努力地满足反事实框架下的因果推论条件,但即使如此,我们也已 经从统计学意义上理解了倾向值匹配为什么能够帮助我们得出因果性结论。

倾向值匹配与其他社会科学方法的比较

以上分析从科技哲学及统计学的角度阐释了为什么通过倾向值匹 配可以得到因果性结论。然而,因果性分析的方法并不局限于倾向值 匹配,在教育学及计量经济学领域中有很多其他的方法可以帮助我们 建构因果关系。在以下讨论中,我将把倾向值匹配与回归中断设计和 工具变量进行比较以展示倾向值匹配的优势。

1倾向值匹配和回归中断设计

在教育学中应用比较广泛的因果推论方法是“回归中断设计” ( regression discontinuity design) 。该方法最先由两位美国学者在 1960 ( Thistlethwaite & Campbell, 1960) 提出。在他们的研究中,两位学者关 心的是学习上的荣誉奖励( 原因) 是否能够提升学生未来的学术成就 ( 结果) 。这里的荣誉奖励是根据考试成绩而定的: 当考试成绩 x 超过 一定分数 c,则给予奖励( D =1) ,否则( x < c 时) 则没有奖励( D =0) 。通过这种操作,我们就在我们所关心的自变量那里建立了一种“中断” ( c 之上和之下) 。随后如果学生的学术成就也发生了类似的中断( 例 如考试成绩在 c 以下学生的学术成就低于考试成绩在 c 以上的学生的 学术成就) ,则可以认为奖励和学术成就之间有因果关系。图 1 用图 示的方式表达了这种关系。

在图1 中, x 在 c 处的中断对应于因变量 Y 的中断,这种中断 τ 代 表了 x 对于 Y 的效果。从反事实框架来看,回归中断设计满足了非混 淆假设。在上面的荣誉奖励例子中,一个人得到荣誉奖励可以理解为 一个人进入了实验组,而这“完全”取决于学生的考试分数 x( 分数高就有奖励而分数低则没有奖励)。因此,只要我们控制了分数 x, w(是否得到奖励)就和因变量 Y1(得到奖励的学生的学术成就)以及 Y0(没有得到奖励的学生的学术成就)独立了。用公式可以表述如下:

这里我们可以将回归中断设计与倾向值匹配进行一下比较。倾向值匹配将对多个混淆变量的控制转化为对“单一倾向值”的控制,以此满足非混淆假设。而回归中断设计则是通过控制一个变量(如上例中的考试成绩)就能完成这一点。回归中断设计之所以不需要考虑多个混淆变量就在于一个个体是否能够接受某个自变量的影响(即能否得到奖励)完全取决于单一变量 x(考试成绩)。换句话说,回归中断设计中只有一个混淆变量 x。然而,在社会学的调查研究中很难找到这种“单一混淆变量”的情况。正因为如此,回归中断设计在社会学中的应用远不及在教育学中普遍( Angrist & Lavy, 1999; Black, 1999)。此外,回归中断设计的另一个缺陷在于:如果存在其他自变量也出现某种“中断”的情况,我们就很难知道什么原因造成了因变量取值的中断。假设一个人是否获奖不仅仅与考试成绩在临界点上下有关( x > c 或x < c),也和年龄有关(例如年龄大的人容易获奖,而年龄小的人很难获奖),则回归中断设计就无法探究荣誉奖励本身对未来学术成就的影响(因为学术成就的中断也有可能是因为年龄不同) ( Hahn et al., 2001)。在社会学研究中,类似的多重中断并不少见,这也使得回归中断设计的应用范围受到限制。

2倾向值匹配和工具变量

除了回归中断设计,在经济学及传染病学领域应用比较广泛的另 外一个方法是工具变量( instrumental variable) ( Angrist et al. , 1996; Angrist & Krueger, 2001; Greenland, 2000; Martens et al. , ; Newhouse & McClellan, 1998) 。假定我们希望探索变量 X 对 Y 的因果关系,混淆变 量 U 的存在会影响我们的研究。这时我们寻找到一个工具变量 Z,该 变量的特点在于和 X 相关,但不和 Y 直接相关( 除非是通过 X) ,同时 Z 也不与混淆变量U 相关。这样,我们就不直接考察X 是否能影响 Y, 而是转而考察 Z 对 Y 的影响。如果 Z 很明显地影响了 Y,我们就能得 出 X 影响了 Y 的结论。工具变量的基本逻辑表示如图2。

通过图2 我们很容易理解工具变量的基本逻辑,由于混淆变量 U 和 X 互相影响,我们很难直接探索 X 对 Y 的“纯”作用。所以我们找 到工具变量 Z。Z 和 Y 的关系只能通过 X,因此如果我们能够发现 Z 对 Y 有作用,我们就能间接得出结论说 X 对 Y 有作用,从而确定了一 种因果关系。

从严格的统计学意义上来说,利用工具变量进行因果推论需要满 足很多假设条件( Imbens & Angrist, 1994) 。这里可以通过一个经典实例来展示这些假设。安格里斯特等人( Angrist et al., 1996)使用工具变量分析了服兵役( X)是否会对士兵在退伍后的健康状况( Y)产生因果性影响。这里,服兵役的工具变量是抽签的结果( Z)。当抽到的数字低于某个值则服兵役,而高于这个值则不需服兵役。在这个例子中,安格里斯特及其同事阐述了使用工具变量进行因果推论的几个关键假设。第一个假设称为“单位实验效果值稳定假设”( stable unit treatment value assumption)。这意味着每个人的抽签结果不会对他人是否服兵役产生影响。第二个假设就是上面提到的非混淆假设,即抽签的结果和个体的健康之间相互独立。由于这里是随机抽签,因此这一条件得到满足。第三个假设是“排除性假设”( exclusion restriction)。这一假设意味着在因果推论中排除两类人。第一类人是无论抽签结果如何都会服兵役(总是服兵役的人),而第二类人是无论抽签结果如何都不会服兵役(总是不服兵役的人) 。第四个假设是“平均因果效果非零”( nonzero average causal effect),即保证如果抽中的号码小,则服兵役的概率就高。最后一个假设是“单调性”( monotonicity),意味着抽中小数字的人去服兵役的概率要比抽中大数字的人去服兵役的概率高。根据这一假设,那些“低数字偏偏不服兵役”而“高数字偏偏服兵役”的“叛逆者”就被排除在外了。

根据这些假设,我们回到反事实框架下的因果推论公式,即:

这里由于我们有抽签的机制,π(即服兵役的比例)就等于 X( Z =1),而没有服兵役的比例1 -π则等于 X( Z =0),而w = X。其中, X 表示是否服兵役,它是 Z 的函数,而 Z 表示抽签结果( Z = 1 表示抽中小号,而 Z =0表示抽中大号)。将它们代入反事实框架下的因果推论公式,我们得到:

由于叛逆者被排除出去,可以假定E( Y0 | X = 1) = E( Y0 | X = 0) =0,这进一步将因果关系简化成为:

上述公式右端的各项都是可观测到的,从而使得因果推论得以完成。然而,使用工具变量方法存在诸多限制。首先,我们所推论出的因果关系被称为“局部平均治疗效果”( local average treatment effect) ( Wooldridge, 2002)。这是因为我们最终能够推算出的因果关系仅仅适用于那些遵循“拿到小号服兵役,拿到大号不服兵役”原则的“服从者”( complier) ( Imbens & Angrist,1994),但我们不能考察总是服兵役的人、总是不服兵役的人或叛逆者。其次,工具变量方法能否带来因果推论很大程度上取决于我们能否找到好的工具变量。如果工具变量本身不够好(比如工具变量和我们关心的自变量的联系很弱,或者和某些混淆变量有关系),那么我们的结论就站不住脚了( Bound et al., 1995)。最后,工具变量的实施需要满足一定的随机性以满足非混淆假设。但在社会学研究中,类似于随机抽签这样“完美”的工具变量几乎很少见到。

总之,无论是回归中断设计还是工具变量都不能够像倾向值匹配那样可以方便地应用于基于调查研究的数据分析。回归中断设计需要寻找一个变量“完全决定”个体是否进入实验组或对照组,而工具变量的方法也需要寻找到合适的工具变量来满足上面列举的诸多条件,这些在调查数据中往往难以满足。正因为如此,在社会学研究中倾向值匹配的方法要比其他方法更为“流行”。

文献荐读往期回顾

直接点击标题即可查看

(完)

编辑:雷诚谋

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。