Page 210 - 《社会》2014年第1期

P. 210

问卷调查质量研究：应答代表性评估

互独立，那么样本的应答就具有代表性（强）；如果对于分类变量犡，样
本在不同类别上的平均应答倾向（狉犲狊狆狅狀狊犲狆狉狅狆犲狀狊犻狋狔）是相同的常数，
那么样本的应答相对于犡来说就具有代表性（弱）。
实际上，这两个定义都认为，当无应答样本的缺失机制属于完全随
机缺失（犕犆犃犚）时，其应答样本是有代表性的。“强”定义是理论上的
代表性，因为每个采访对象的应答概率无从得知；“弱”定义则是可操作
的定义，可以选择某几个分类变量，然后利用统计方法估计样本在这些
类别上的应答倾向，比较不同类型的平均应答倾向值是否相同。因此，
要满足“弱”定义的代表性，需考虑以下三方面的问题：
第一，分类变量的选择。用作建构代表性指标的分类变量首先要满
足一个重要条件，即该变量必须在所有样本上有值，无论是应答样本还
是无应答样本，该变量值都不能缺失；其次，该分类变量要与抽样设计密
切相关，这样在比较应答样本和目标样本的相似程度时才会更有参考价
值；第三，这些分类变量最好是研究变量估计值的有效预测因子，这样就
可以更好地捕捉到无应答对于估计值偏差的影响。问卷调查中能够满
足这些条件的数据有两种，一种是辅助性变量（犪狌狓犻犾犻犪狉狔狏犪狉犻犪犫犾犲），如目标
总体的普查数据、样本框的各类数据等；另一种是并行数据，也就是关于
调查执行过程的数据，如联系记录、访员观察、访员调配记录等。
第二，样本应答倾向的计算。在这方面，最常用的模型是逻辑斯蒂
回归，模型的因变量是代表目标样本是否应答的二分变量。也可以根据
研究的需要选用其他模型，如研究不同联系尝试次数情况下的应答代表
２
性问题，可以选用离散时间的风险模型（犱犻狊犮狉犲狋犲狋犻犿犲犺犪狕犪狉犱犿狅犱犲犾）。
第三，不同类别平均应答倾向的比较。当根据应答倾向模型计算
出不同类别上应答倾向的估计值，用来比较这些估计值与平均应答倾
向值差距最简单的方法就是计算方差。方差小，证明应答倾向估计值
接近相同，应答样本就有很好的代表性；方差大，则应答倾向的差异就
大，应答代表性就弱。
（二）犚指标的测量
经过以上理论界定和操作上的考虑，研究者将代表性的“强”定义

２．犌犲犲狉狋犔狅狅狊狏犲犾犱狋犪狀犱犓狅犲狀犅犲狌犾犾犲狀狊．犚犐犛犙犉犻犲犾犱狑狅狉犽犕狅狀犻狋狅狉犻狀犵．犠狅狉犽犘犪犮犽犪犵犲６，
犇犲犾犻狏犲狉犪犫犾犲５，狏犲狉狊犻狅狀２，犜犺犲犚犐犛犙犘狉狅犼犲犮狋，７狋犺犉狉犪犿犲狑狅狉犽犘狉狅犵狉犪犿犿犲（犉犘７）狅犳狋犺犲犈狌狉狅狆犲犪狀
犝狀犻狅狀，２００９：狑狑狑．狉犻狀犱犻犮犪狋狅狉．犲狌．

· ２０３ ·

205 206 207 208 209 210 211 212 213 214 215