Page 15 - 《社会》2014年第2期
P. 15
社会· 2014 · 2
高抽样的代表性, 犆犉犘犛 采用多阶段、内隐分层( 犻犿 狆 犾犻犮犻狋狊狋狉犪狋犻犳犻犮犪狋犻狅狀 )
和与人口规模成比例( 狉狅犫犪犫犻犾犻狋 狔狆 狉狅 狆 狅狉狋犻狅狀犪犾狋狅狊犻狕犲 , 犘犘犛 )的系统概
狆
率抽样方式。抽样分三个阶段进行:抽取行政性区/县、抽取行政性村/
居委会和抽取家庭户。 9 前两个阶段的抽样框使用了根据官方行政区
划资料制成的区/县名录和村/居名录,第三个阶段的末端抽样框使用
了通过实地绘制地图获得的家户住址。 犆犉犘犛 分层抽样的主要变量是
行政区划和社 会 经 济 水 平( 狊狅犮犻狅犲犮狅狀狅犿犻犮狊狋犪狋狌狊 , 犛犈犛 )。在同级行 政
层,地方人均 犌犇犘 是社会经济水平的主要排序指标;在无法获得 犌犇犘
指标的条件下,则采用非农人口比例或人口密度作为替代指标。在前
两个阶段的每一抽样框中,根据这些指标对行政区/县或村/居排序后,
从随机起点以等距方式抽取区/县或村/居样本,按与人口规模成比例的
概率进行内隐分层抽样。例如,在“小省”子总体样本框中,将同省的区/
县排列在一起能保证每个省内区/县被抽中的概率与该省人口规模大约
成比例。同时,我们对省又进行了社会经济水平的排序,使得在两省交
界处的样本单元具有相对相似性,因此,通过随机方式多抽或少抽一个
样本单元(即区/县)都不会影响到抽样的效率。也就是说,在随机抽样
已经能保证总体代表性的基础上,对社会经济水平这一辅助信息的利用
又提高了样本代表总体的效率。在末端抽样时,由于事先没有家户社会
经济水平指标的数据,我们就借助地理信息,按照社区内的行走路线对
家庭户进行排序。由于住宅的地理位置通常含有社会经济水平的信
息,这种排序方式对提高样本效率依然有效。
犆犉犘犛 抽样设计 的 另 一 特点 是打 破 了 农 村 与 城 市 分 开 抽 样 的 传
统,采用城乡一体化的抽样方式。这样设计主要是因为官方对农村与
城市的行政划分已难以及时反映中国快速城市化的现实。因此, 犆犉犘犛
样本的城乡属性不再是依据事先由城乡行政划分的抽样框来鉴别,而
是依据社区、家庭以及个人问卷中关于村居属性、农业与非农活动、户
口等多个变量来判断。
为了评估 犆犉犘犛 样本对总体人口的代表性,我们将基线调查中基
9. 上海因不同于其他“大省”,样本的抽取略有不同。关于抽样的具体设计可参见:谢宇、邱
泽奇、吕萍 .2012. 中国家庭追踪调查抽样设计,北京大学中国社会科学调查中心《中国家庭追
踪调查技 术 报 告 系 列 ( 犆犉犘犛-1 )》,网 址: 犺狋狋 狆 :// 狑狑狑.犻狊狊狊.犲犱狌.犮狀 / 犮犳 狆 狊 / 犱 / 犳犻犾犲 / 狑犱 / 犼 狊犫 犵 /
2010 犼 狊犫 犵 / 犮70犮703752犳7犳6犳24犲27犫5犪8犪85犮1犮犫犪. 狆 犱犳 。
· 8 ·