Page 211 - 《社会》2022年第3期
P. 211
社会·2022·3
3. 控制碰撞变量诱导伪相关
第三,对应于反叉状构型,如图 2(c)中当 A、B 两变量之间不存在
因果关系,仅有一个作为“同果”的碰撞变量 C 时,A、B 两变量间本身
不会因变量 C 的存在而具有相关性。 然而,将变量 C 控制之后,变量 A
与 B 之间会出现伪相关。与因存在混淆变量导致伪相关的情况不同,因
控制碰撞变量造成伪相关的过程较为抽象, 本文引用埃尔韦特与温什
普(Elwert and Winship,2014)所举的好莱坞演员的例子进行说明。 为便
于讨论,首先预设就人群整体而言,个人的才气和相貌间不存在关联,
即两者间既无任何方向的因果关系,也不存在作为“共因”的混淆变量。
其次, 一项合理的预期是过人的才气和姣好的相貌都能正向提升个体
成为好莱坞演员的概率。 套用图 2(c)的构型,则 A、B 两变量分别对应
个体的才气和相貌,变量 C 为是否能成为好莱坞演员。 那么,当控制作
为碰撞变量的 C 后,如只考虑那些成功成为好莱坞演员的个体,当已知
该演员才气平庸时, 那么基于此人能够成为演员的事实可以推断其有
极高概率相貌出众;反之,如果已知某演员相貌普通,可以合理推测其
应当拥有过人的才华。 因此,尽管个体才气和相貌这两项先赋因素本身
不具有任何因果关系,但在好莱坞演员这一特定人群中,两变量会呈现
反向的伪相关性。 这种由于不当控制碰撞变量所产生的偏差被称为内
生性选择偏差( endogenous selection bias)。
摩根和温什普使用蒙特卡罗法模拟了大学申请者的 SAT 7 成绩和
面试得分情况———两项决定申请者能否被录取的主要指标,并预先赋
予两者间一个系数为 0.035 的正向相关;随后,分别在模拟样本中检验
录取和未获录取的两个群体内部个体 SAT 成绩和面试得分的关系。 研
究发现,被录取者的 SAT 成绩与面试得分的相关系数为-0.64;而在未
被录取的群体中,两变量的相关性为-0.23(Morgan and Winship,2014:
108)。 这一结果直观地揭示了对碰撞变量的不当控制可能带来严重的
偏差,甚至得出完全错误的结论。 根据流行病学等领域的学者对内生
性选择偏差影响的评估,当碰撞变量为二元变量时,如果错误控制 碰
撞 变 量 , 引 入 的 偏 差 幅 度 通 常 与 未 能 控 制 混 淆 变 量 的 影 响 相 当
( Greenland,2003)。 这说明在实证研究中,内生性选择偏差问题不容忽
视。 然而,不同于因遗漏混淆变量导致的伪相关,因控制碰撞变量引起
7. 美国大学入学考试。
· 204·