Page 120 - 《社会》2017年第3期
P. 120
教育的同型婚姻与中国社会的家庭工资收入不平等: 1996 — 2012
的合作团队中国人民大学社会学系此后成为 犆犌犛犛 的实施团队,因此
这两个调查存在一定的延续性。由于 犔犎犛犆1996 这一早期调查数据在
不同变量上有若干缺失值,按照同样的条件筛选样本后,余下 2160 个
案例。对筛选后的样本各 自 进行 加权, 13 得 到 犔犎犛犆1996 的 708575
个样本以及 犆犌犛犛2012 的 713741 个样本。
本文之所以没有选取 犆犌犛犛 其他年份的调查数据用于对比,是由
于它们要么城乡代表性较差(如 犆犌犛犛2003 ),要么缺乏单独的配偶工
资收入变量而只有总收入变量(如 犆犌犛犛2005 、 犆犌犛犛2006 、 犆犌犛犛2008 、
犆犌犛犛2010 、 犆犌犛犛2011 )。如前所述,家庭总收入来源含混,无法作为本
研究的研究对象。
(二)自变量与控制变量
本文关心的主要自变量是教育维度上的同型婚姻。此外,在中国的
社会语境下,户口、地域、年龄等变量对婚姻也具有重要影响。为此,本
文在分析时逐步加入这些控制变量,试图分离出教育的作用。户口与地
域的影响自不待言,为什么要把年龄作为控制变量呢?若不加控制,不
论是采用传统的对数线性模型还是置换检验方法,在计算期望分布、建
构反事实的时候,一位原本拥有 30 岁配偶的样本有同等的概率被匹配
给任意年龄的配偶,这当然问题重重。受限于分析方法,此前研究未能
有效地控制这一变量,本文对置换检验进行了改进,可以缓解这一问题。
上述变量之间当然存在内生性的问题,户口、地域和年龄都与受教
育程度存在一定程度的相关,我们的分析并不能分辨哪一条路径真正
发挥功效,何况就每个人而言,这个路径的结构都可能不同。截面数据
对变量的内生性问题缺乏有力的应对策略,这是暂时无法解决的问题。
为了使分析框架在必要的程度上保持简洁,且可以与其他研究相
比较,本文对户口和受教育程度进行了重新编码。
1. 核心自变量:教育
教育是本文格外关心的变量,我们不仅关心夫妻各自的受教育程
度,还关心夫妻教育的联合分布,也就是教育同型婚姻的情况。本文对
13. 对于 犔犎犛犆1996 ,按照其 标 准 化 后 的 家 庭 权 重 乘 以 500 之 后 取 整 扩 展 样 本,以 得 到 与
犆犌犛犛2012 加权后规模差不多的样本。 犔犎犛犆1996 中有 147 个受访案例为村长,其标准化权
重为“不适用”,不得不预先将其剔除。对于 犆犌犛犛2012 ,按照家庭权重变量扩展样本。这种加
权方式对 犔犎犛犆1996 而言些微损失了加权信息,但是不存在显见的系统性偏差。
· 1 1 3 ·