Page 217 - 《社会》2014年第1期
P. 217
社会· 2014 · 1
要增加的应答样本比例越高。如果呈现正值,则意味着该类别被过度
代表,正值越大,过度代表的程度越大。因此,那些拥有较低的负向无
条件偏 犚 指标和较高的条件偏 犚 指标最应引起调查执行人员和研究
人员的注意。
在变量的偏 犚 指标上,我们已经发现,村/居类型对应答样本代表
性的影响较大,表 4 更是清楚地显示,这一变量中处于城市的村/居的
应答样本呈现代表性不足的状况,其影响在所有调查阶段和所有变量
类别中居于首位。与其对应的是处于农村的村/居样本被过度代表,其
影响也比其他变量类别大。
除了城市的村/居,区县 犌犇犘 大于或等于 40000 元,区县人口密
2
度大于等于 1600 人/ 犽犿 ,区县非农人口比例在 0.8 和 1 之间,村/居
委会配合程度很少的子样本的应答代表性也相对不足,这些都反映了
目前中国抽样入户调查的困难主要集中在具有这些特征的地区。
此外,变量类别对于应答代表性的影响力在不同的调查阶段也不
相同,这表现在表 4 中三个阶段变量类别的不同排序上。如区县 犌犇犘
大于或等于 40000 元的变量类别在第一阶段的影响力位居第 5 ,而到
访问全部结束时,其影响力上升至第 2 。这表明,后期调查访问的样本
较多集中在区县 犌犇犘 小于 40000 元的地区,加重了前者的代表性不
足问题。同时我们也发现,区县非农人口比例在 0.8 和 1 之间的变量
类别的影响力从第一阶段的第 2 降到采访结束时的第 4 ,说明后期的
调查在这类地区访到了较多的样本,在一定程度上增加了应答样本的
代表性。
(三) 犚 指标的作用
在 犆犉犘犛2010 年的初访调查中,我们是在调查结束后开始计算 犚
指标的。事后计算的好处在于,变量选取时更为谨慎,一方面可以从
所有获取数据中有效筛选相关分类变量,另一方面对所选变量的数据
质量也有全面认识。通过对 犚 指标及其辅助指标结果的分析,我们可
以对调查数据的代表性有更深入的了解,并为数据使用者提供重要的
参考信息。同时,因为 犆犉犘犛 是跟踪调查,我们也可以从初访调查中吸
取经验和教训,有针对性地制定管理方案,提高一些子样本的代表性,
应用到下一轮的跟踪调查中。
· 2 1 0 ·