Page 15 - 《社会》2014年第2期

P. 15

社会· ２０１４ · ２

高抽样的代表性，犆犉犘犛采用多阶段、内隐分层（犻犿狆犾犻犮犻狋狊狋狉犪狋犻犳犻犮犪狋犻狅狀）
和与人口规模成比例（狉狅犫犪犫犻犾犻狋狔狆狉狅狆狅狉狋犻狅狀犪犾狋狅狊犻狕犲，犘犘犛）的系统概
狆
率抽样方式。抽样分三个阶段进行：抽取行政性区／县、抽取行政性村／
居委会和抽取家庭户。９前两个阶段的抽样框使用了根据官方行政区
划资料制成的区／县名录和村／居名录，第三个阶段的末端抽样框使用
了通过实地绘制地图获得的家户住址。犆犉犘犛分层抽样的主要变量是
行政区划和社会经济水平（狊狅犮犻狅犲犮狅狀狅犿犻犮狊狋犪狋狌狊，犛犈犛）。在同级行政
层，地方人均犌犇犘是社会经济水平的主要排序指标；在无法获得犌犇犘
指标的条件下，则采用非农人口比例或人口密度作为替代指标。在前
两个阶段的每一抽样框中，根据这些指标对行政区／县或村／居排序后，
从随机起点以等距方式抽取区／县或村／居样本，按与人口规模成比例的
概率进行内隐分层抽样。例如，在“小省”子总体样本框中，将同省的区／
县排列在一起能保证每个省内区／县被抽中的概率与该省人口规模大约
成比例。同时，我们对省又进行了社会经济水平的排序，使得在两省交
界处的样本单元具有相对相似性，因此，通过随机方式多抽或少抽一个
样本单元（即区／县）都不会影响到抽样的效率。也就是说，在随机抽样
已经能保证总体代表性的基础上，对社会经济水平这一辅助信息的利用
又提高了样本代表总体的效率。在末端抽样时，由于事先没有家户社会
经济水平指标的数据，我们就借助地理信息，按照社区内的行走路线对
家庭户进行排序。由于住宅的地理位置通常含有社会经济水平的信
息，这种排序方式对提高样本效率依然有效。
犆犉犘犛抽样设计的另一特点是打破了农村与城市分开抽样的传
统，采用城乡一体化的抽样方式。这样设计主要是因为官方对农村与

城市的行政划分已难以及时反映中国快速城市化的现实。因此，犆犉犘犛
样本的城乡属性不再是依据事先由城乡行政划分的抽样框来鉴别，而
是依据社区、家庭以及个人问卷中关于村居属性、农业与非农活动、户
口等多个变量来判断。
为了评估犆犉犘犛样本对总体人口的代表性，我们将基线调查中基

９．上海因不同于其他“大省”，样本的抽取略有不同。关于抽样的具体设计可参见：谢宇、邱
泽奇、吕萍．２０１２．中国家庭追踪调查抽样设计，北京大学中国社会科学调查中心《中国家庭追
踪调查技术报告系列（犆犉犘犛－１）》，网址：犺狋狋狆：／／狑狑狑．犻狊狊狊．犲犱狌．犮狀／犮犳狆狊／犱／犳犻犾犲／狑犱／犼狊犫犵／
２０１０犼狊犫犵／犮７０犮７０３７５２犳７犳６犳２４犲２７犫５犪８犪８５犮１犮犫犪．狆犱犳。
· ８ ·

10 11 12 13 14 15 16 17 18 19 20