Page 216 - 《社会》2022年第3期
P. 216
图形的逻辑力量:因果图的概念及其应用
图 4:遗 漏 变 量 与 自 选 择
2002:325)。 伍德里奇曾举例,在讨论个体教育对收入水平的影响时,仅
关注那些收入水平在特定条件下的人群(如年收入十万以上者),得到
的教育对收入的影响与在整个人群中的实际影响程度不同, 这是典型
的样本截断问题( sample truncation)(Jerry and Wise,1977)。 应用因果图
框架,考虑系统中存在一些不易被观测的因素(如个体智力等)会同时
影响个体的受教育水平及未来收入。 如前文所述,这些因素本身作为混
淆变量,在不能被有效控制的情况下会带来偏差。 但是,当所用样本基
于因变量信息被截断后,系统中会存在另一种由碰撞变量带来的偏差。
如图 5(a)所示,被解释变量个体收入水平是受个体智力和教育水平同
时影响的碰撞变量,在以“年入十万”为标准对人群分层之后,实际上开
启了另一层个体智力与教育水平之间的伪相关关系。 由此带来的双重
相关无法真实反映个体教育和收入水平间的真实关系。
进一步而言,无论是否存在遗漏变量,基于因变量的样本截断总会
给系统带来偏差。 不妨将案例中的个体智力换作彩票是否中奖,一项与
个体受教育程度无关 10 却直接影响到个体收入水平的因素, 在一般的
回归过程中这样的变量并不需要被控制。 如图 5(b)显示,尽管不存在
混淆变量, 但由于作为被解释变量的个体收入水平充当了教育水平和
彩票中奖的碰撞变量,当系统通过样本截断控制了个体收入水平后,会
开启教育水平和彩票中奖间的伪相关。 此时,除了个体教育和收入水平
之间本身存在的因果关系外,还加上了一条“教育水平→彩票中奖→收
入水平”的伪相关。 在此情况下,个体教育和收入水平间的相关程度同
样不等于因果效应。 事实上,可以将“彩票中奖”看作与解释变量“教育
10. 以彩票严格遵循随机过程为前提。
· 209·