Page 214 - 《社会》2014年第1期
P. 214

问卷调查质量研究:应答代表性评估


       首先,我们希望选取的变量能够和调查主题的重要估计值密切相
   关。 犆犉犘犛 是一个 综 合 的 社 会 科 学数 据 采 集 平 台,主 题 多 样,涵 盖 面
   广。一般这样的调查在抽样设计上都会尽可能获取样本在地理分布上
   的代表性,所以 犆犉犘犛 采用了内隐分层( 犻犿 狆 犾犻犮犻狋狊狋狉犪狋犻犳犻犮犪狋犻狅狀 )的多阶
   段概率抽样方法,主要排序变量为区县的人均 犌犇犘 、非农人口比例和
   人口密度。 5 也就是说,从理论上看,设计者认为样本在这些变量上的
   代表性会影响调查主题变量的估计值,因此,在选取计算 犚 指标的分
   类变量时,要首先考虑使用这些辅助性变量,这些数据可以从国家发布
   的统计资料直接获取。
       其次,根据以往的调查实践和研究经验,样本是否能够访问成功
   与村/居所处的地 域 类 型(如城 市、城镇、农村 或郊 区)、村/居 委会对
   调查的配合程度,以及访员的性别密切相关。一般来说,农村居民比
   较容易接受采访,城市居民则相对较难;村/居委会对于调查的支持
   程度会直接影响居民 对 访问 的态 度;女性 访员 相对男性访员 的入户
   难度要低一些。在 犆犉犘犛2010 年 的调 查中,这 些信息 通过访 员 的 观
   察记录、对访员的调查问卷,以及调查支持系统存储的访员调配记录
   被有效采集。
       第三,选取变量时,我们尽量避免使用理论上认为有作用,但数据
   质量没有保证的变量。如访员的努力程度(表现为访员联系受访者的
   次数、时间或方式等)会直接影响访问是否能够顺利进行。 犆犉犘犛 通过
   访员的联系记录采集了这些数据,但访员反映,由于开关电脑比较麻
   烦,如果住户无人响应,一般不会马上在电脑里插入联系记录,而是或
   者当天工作完成后几个家庭一起插入记录,或者索性就漏掉不记了,这
   样会导致联系次数记录不足,电脑自动记录的联系时间(即插入联系记
   录的时间)也不准确。对于这些数据有明显问题的变量,我们没有用来
   计算 犚 指标。
       因此, 犆犉犘犛 建构 犚 指标的分类变量主要有两大类:来自抽样设计
   的辅助性变量数据和来自调查实施过程的并行数据,具体如表 2 所示:



   5. 谢宇、邱泽奇、吕萍 .2012.犆犉犘犛-1 :中国家庭动态跟踪调查抽样设计 . 参见网址: 犺狋狋 狆 ://
   狑狑狑.犻狊狊狊.犲犱狌.犮狀 / 犻狀犱犲狓. 狆 犺 狆 ? 犮犪狋犻犱=201牔犪犮狋犻狅狀=犻狀犱犲狓



                                                          · 2 0 7 ·
   209   210   211   212   213   214   215   216   217   218   219