Page 211 - 《社会》2022年第3期
P. 211

社会·2022·3

               3. 控制碰撞变量诱导伪相关
               第三,对应于反叉状构型,如图 2(c)中当 A、B 两变量之间不存在
           因果关系,仅有一个作为“同果”的碰撞变量 C 时,A、B 两变量间本身
           不会因变量 C 的存在而具有相关性。 然而,将变量 C 控制之后,变量 A
           与 B 之间会出现伪相关。与因存在混淆变量导致伪相关的情况不同,因
           控制碰撞变量造成伪相关的过程较为抽象, 本文引用埃尔韦特与温什
           普(Elwert and Winship,2014)所举的好莱坞演员的例子进行说明。 为便
           于讨论,首先预设就人群整体而言,个人的才气和相貌间不存在关联,
           即两者间既无任何方向的因果关系,也不存在作为“共因”的混淆变量。
           其次, 一项合理的预期是过人的才气和姣好的相貌都能正向提升个体
           成为好莱坞演员的概率。 套用图 2(c)的构型,则 A、B 两变量分别对应
           个体的才气和相貌,变量 C 为是否能成为好莱坞演员。 那么,当控制作
           为碰撞变量的 C 后,如只考虑那些成功成为好莱坞演员的个体,当已知
           该演员才气平庸时, 那么基于此人能够成为演员的事实可以推断其有
           极高概率相貌出众;反之,如果已知某演员相貌普通,可以合理推测其
           应当拥有过人的才华。 因此,尽管个体才气和相貌这两项先赋因素本身
           不具有任何因果关系,但在好莱坞演员这一特定人群中,两变量会呈现
           反向的伪相关性。 这种由于不当控制碰撞变量所产生的偏差被称为内
           生性选择偏差( endogenous selection bias)。
               摩根和温什普使用蒙特卡罗法模拟了大学申请者的 SAT                         7  成绩和
           面试得分情况———两项决定申请者能否被录取的主要指标,并预先赋
           予两者间一个系数为 0.035 的正向相关;随后,分别在模拟样本中检验
           录取和未获录取的两个群体内部个体 SAT 成绩和面试得分的关系。 研
           究发现,被录取者的 SAT 成绩与面试得分的相关系数为-0.64;而在未
           被录取的群体中,两变量的相关性为-0.23(Morgan and Winship,2014:
           108)。 这一结果直观地揭示了对碰撞变量的不当控制可能带来严重的
           偏差,甚至得出完全错误的结论。 根据流行病学等领域的学者对内生
           性选择偏差影响的评估,当碰撞变量为二元变量时,如果错误控制 碰
           撞 变 量 , 引 入 的 偏 差 幅 度 通 常 与 未 能 控 制 混 淆 变 量 的 影 响 相 当
          ( Greenland,2003)。 这说明在实证研究中,内生性选择偏差问题不容忽
           视。 然而,不同于因遗漏混淆变量导致的伪相关,因控制碰撞变量引起

           7. 美国大学入学考试。

           · 204·
   206   207   208   209   210   211   212   213   214   215   216