Page 210 - 《社会》2014年第1期
P. 210
问卷调查质量研究:应答代表性评估
互独立,那么样本的应答就具有代表性(强);如果对于分类变量 犡 ,样
本在不同类别上的平均应答倾向( 狉犲狊 狆 狅狀狊犲狆 狉狅 狆 犲狀狊犻狋 狔 )是相同的常数,
那么样本的应答相对于 犡 来说就具有代表性(弱)。
实际上,这两个定义都认为,当无应答样本的缺失机制属于完全随
机缺失( 犕犆犃犚 )时,其应答样本是有代表性的。“强”定义是理论上的
代表性,因为每个采访对象的应答概率无从得知;“弱”定义则是可操作
的定义,可以选择某几个分类变量,然后利用统计方法估计样本在这些
类别上的应答倾向,比较不同类型的平均应答倾向值是否相同。因此,
要满足“弱”定义的代表性,需考虑以下三方面的问题:
第一,分类变量的选择。用作建构代表性指标的分类变量首先要满
足一个重要条件,即该变量必须在所有样本上有值,无论是应答样本还
是无应答样本,该变量值都不能缺失;其次,该分类变量要与抽样设计密
切相关,这样在比较应答样本和目标样本的相似程度时才会更有参考价
值;第三,这些分类变量最好是研究变量估计值的有效预测因子,这样就
可以更好地捕捉到无应答对于估计值偏差的影响。问卷调查中能够满
足这些条件的数据有两种,一种是辅助性变量( 犪狌狓犻犾犻犪狉 狔狏犪狉犻犪犫犾犲 ),如目标
总体的普查数据、样本框的各类数据等;另一种是并行数据,也就是关于
调查执行过程的数据,如联系记录、访员观察、访员调配记录等。
第二,样本应答倾向的计算。在这方面,最常用的模型是逻辑斯蒂
回归,模型的因变量是代表目标样本是否应答的二分变量。也可以根据
研究的需要选用其他模型,如研究不同联系尝试次数情况下的应答代表
2
性问题,可以选用离散时间的风险模型( 犱犻狊犮狉犲狋犲狋犻犿犲犺犪狕犪狉犱犿狅犱犲犾 )。
第三,不同类别平均应答倾向的比较。当根据应答倾向模型计算
出不同类别上应答倾向的估计值,用来比较这些估计值与平均应答倾
向值差距最简单的方法就是计算方差。方差小,证明应答倾向估计值
接近相同,应答样本就有很好的代表性;方差大,则应答倾向的差异就
大,应答代表性就弱。
(二) 犚 指标的测量
经过以上理论界定和操作上的考虑,研究者将代表性的“强”定义
2.犌犲犲狉狋 犔狅狅狊狏犲犾犱狋犪狀犱 犓狅犲狀 犅犲狌犾犾犲狀狊.犚犐犛犙犉犻犲犾犱狑狅狉犽 犕狅狀犻狋狅狉犻狀 犵 . 犠狅狉犽 犘犪犮犽犪 犵 犲 6 ,
犇犲犾犻狏犲狉犪犫犾犲5 , 狏犲狉狊犻狅狀2 , 犜犺犲犚犐犛犙犘狉狅 犼 犲犮狋 , 7狋犺犉狉犪犿犲狑狅狉犽犘狉狅 犵 狉犪犿犿犲 ( 犉犘7 ) 狅犳狋犺犲犈狌狉狅 狆 犲犪狀
犝狀犻狅狀 , 2009 : 狑狑狑.狉犻狀犱犻犮犪狋狅狉.犲狌.
· 2 0 3 ·