Page 217 - 《社会》2022年第3期

P. 217

社会·2022·3

水平”无关的误差项的一部分，而被解释变量永远会是解释变量和对应
误差项的碰撞变量（Elwert and Winship，2014）。由于实践中不可能穷尽
构成误差项的所有因素并加以控制，所有基于被解释变量的截断操作
均会引入内生性选择偏差带来的伪相关。
此外，伍德里奇（ Wooldridge，2010：778）将社会调查中常见的缺失
值问题视为内生性样本选择的一种特殊形式，而这一问题也可以通过
因果图的内生性选择偏差视角来解读。当缺失值的出现与任何变量均
无关，即完全随机（missing completely at random）时，缺失值的存在并不
会对该调查的效度产生影响。然而，当缺失值与特定变量间存在关联
时，就可能影响到结果的有效性。如一项新近的研究尝试基于首都大学
生社会调查提供的其他变量信息，使用机器学习算法预测缺失样本的
真实性取向（ Chen，et al.，2022）。借助因果图框架，可以清晰地理解这
项工作的意义。如图 5（c）所示，假设需要使用该社会调查探讨个体性
取向对精神状态的影响。由于社会偏见与歧视的存在（Wang，et al.，
2019），合理的推测是，相较于异性恋个体，性少数个体更倾向于拒绝回
答有关性取向的问题，导致相关问题的缺失值与个体真实性取向之间
存在关联。同时，假设个体精神状态对是否回答问卷中的相关题目也有
影响，那么问卷样本值是否缺失会成为样本性取向和精神状态的碰撞
变量。如果在分析过程中不考虑这一关系而直接使用未缺失的样本，就
会开启反叉状通路，造成解释变量与被解释变量间存在额外的伪相关。
在此情况下，仅考虑个体性取向和精神状态间的相关程度不但不能反
映两者间的真实因果效应，甚至可能得出与事实相悖的结果。假定性少
数群体或精神状态较差的人群更倾向于拒绝回答相关问题，则在已知
样本值不缺失的前提下，选择回答问题的性少数个体更可能具有较好
的精神状态（否则不会去回答问题）；反之，如果精神状态较差，则更可
能是异性恋人群。在这种伪相关性的干扰下，研究者可能得到与真实情
况相反的结果。尝试对缺失值进行精准预测的工作即意在解决此类内
生性选择偏差。假设在最理想的情况下，样本性取向缺失值的真实信息
能补全，则图 5（c）中由性取向到样本缺失值的箭头线就不复存在，进
而提升该项社会调查的有效性。综上，陈云松、范晓光（2010）提及的“样
本选择偏差”或伍德里奇的“内生性样本选择”与因果推断中讨论的“内
生性选择偏差”的涵义相叠，因果图能够以更为直观和规范的形式呈现

· 210·

212 213 214 215 216 217 218 219 220 221 222