Page 178 - 《社会》2013年第5期
P. 178
学校环境与学生成绩的性别差异
行统计分析之前往往需要对缺失值进行处理。常规的缺失值处理方法
包括删除法和插补法。删除法,即直接删除包含缺失值的个案。但如
果数据不是完全随机缺失的,这种方法也可能会造成分析结果的偏倚。
插补法则是指,根据一定的准则,用合理的替补值代替原数据的缺失值
(金勇进、朱琳, 2000 )。合理有效地插补能够使替换值最大可能地接近
原有的缺失值,帮助我们调整并构造完整的数据集,从而有效减少由于
数据缺失可能造成的估计偏差。
插补法包 括 单 一值 插 补 法 和 多 重 插 补 法 ( 犿狌犾狋犻 狆 犾犲犻犿 狆 狌狋犪狋犻狅狀 )。
单一插补法常见的有均值插补、中位值插补、极大似然法插补等,但单
一插补法容易低估变量的方差,造成数据分布的改变。为了弥补这种
不足,鲁宾( 犚狌犫犻狀 , 1987 )提出了多重插补法,后来经过学者们的不断完
善得到了很好的发展。不过,由于这种方法需要计算多个插补值,占用
更多计算机内存,而且数据处理工作也很麻烦,因此在国内的研究中较
少使用。多重插补法,从根本上而言是一种模拟方法(金勇进、朱琳,
2000 ),它的逻辑是根据一定的法则,为每个缺失值计算 犿 个插补值
( 犿> 1 ),由此产生出 犿 个不含缺失值的数据集。继而,分别对每个不
含缺失值的数据集使用同样的方法处理,并得到 犿 个处理结果,综合
这些数据的处理结果,实现对目标变量的估计。
本研究采用多重插补法对缺失数据进行处理,其中 犿=30 。在 犚
软件中进行 30 次模拟插补,每一次插补都能得到一个完整的数据集,
利用完整的数据集进行统计分析,储存分析结果,取其平均,形成对模
型的评估。
(五)样本和基本变量描述
为了更直观地对比多重插补前后数据的区别,我们在变量分布基
本情况表中呈现插补前的原始数据和插补后的完整数据的情况(参见
表 3 —表 6 )。 5
(六)分析模型
结合文献资 料 和经 验事实,我们 采用学 校 固 定 效 应 模 型 ( 狊犮犺狅狅犾
犳犻狓犲犱犲犳犳犲犮狋 )对数据进行分析。因为需要检验班级同伴群体对成绩的影
5. 变量表呈现的插补后的数据是指 30 次插补后算出的平均结果,仅用于报告插补后的数据
分布概况。实际模型分析过程是将每一次插补得到的完整数据集进行回归后再取平均值。
· 1 7 1 ·