Page 222 - 《社会》2022年第3期
P. 222
图形的逻辑力量:因果图的概念及其应用
改进(如 d'Haultfoeuille,2010;King,et al.,2001 等)。 更为彻底的方式则
是提升数据质量或变更问题形式(Morgan and Winship,2014:80)。 就内
生性选择偏差而言,最重要的是准确判断是否存在碰撞变量、能否避免
开启伪相关以及会不会影响到因果推断的效度, 这些均是因果图能够
助力之处。
五、使用因果图厘清模糊认知
因果图作为一种直观严谨的图像化表达系统, 能够帮助研究者澄
清一些长期存在于实证社会科学研究中却不甚准确的观点。 本文以“控
制发生在干预后的变量会低估因果效应”和“发生在干预之前的变量应
当加以控制”两种流传甚广的观念为例加以说明。
1. 控制干预后变量未必带来偏差
计量课程常以图 8(a)为示意来讲解回归模型中控制变量的选取。
其中 ,X 代 表 人 口学 变 量等 先 赋 因素 ,B 则为发 生 于 解 释 变 量 后 的 变
量。 一般会建议控制 X 类变量而避免控制 B 类变量,理由是控制 B 类
变量会分散部分自变量对应的回归系数, 并低估自变量与因变量之间
的真实作用。
然而,基于图 8(a)中的信息,B 类变量与因变量 Y 之间不存在直
接的因果关系,仅因同受解释变量 T 的影响而具有统计学层面的相关。
如果此条件严格成立,是否控制变量 B 对回归结果均不存在影响,解释
变量与被解释变量的关联系数也不会被 B 分散。 不妨以这样的视角来
理解:首先 关 注 B 和 Y 的关 系 ,两 者 间 不 存 在 直 接的因果 关 系 ,仅 有
“B←T→Y”和“B←T←X→Y”两条通过混淆变量传导的通路诱发两者
间的伪相关。 而对这两条通路,控制变量 T 即可将其完全阻断,此时 B
与 Y 之间是条件独立的。 那么,在多元回归的情况下,模型中本身包含
了解释变量 T,此时再将变量 B 作为控制变量纳入模型,B 对应被解释
变量的回归系数只会是 0,不会对回归结果产生任何影响。 事实上,要
使变量 B 对 T 与 Y 间的因果效应产生影响,则在B 与 Y 之间必须存在
另外的不经 T 介导的关系。 在变量 B 不应被控制的论断背后, 实际上
存在着两种不同的情境。
如图 8(b1)(b2)所示,如果 B 和 Y 之 间 存 在 直 接 关 系 ,可能 由 Y
导致 B,或者由 B 导致 Y。 这两种情况下均不应当控制变量 B,但其所
· 215·