Page 127 - 《社会》2017年第3期
P. 127
社会· 2017 · 3
之后得到的结果,其高低反映了人们在户口这一维度上进行匹配所造
成的影响。与没有控制这一变量时相比,泰尔指数的变化就是这一维
度上的同型婚姻对家庭收入不平等产生的影响。
但是上述处理协变量的方法不能有效地应对连续变量。罗森鲍姆
( 犚狅狊犲狀犫犪狌犿 , 1984 )指出这一方法对于连续变量来说很难适用,因为连
续变量在每一个取值上数量有限,导致协变量组合对应的观测值太少。
可以想象,在这种情况下严格地限制随机化所得的结果与初始数据不
会有太大区别,意义不大。一种解决办法是把连续变量分组进而转化
成取值较少的离散变量,但是这种“放到框里”的做法会人为地制造边
界,例如设立 30 岁以下组, 29 岁的人就只能与 28 岁的人交换位置,尽
管 28 岁的人可以与 27 和 29 岁的人交换位置,这样在边界附近的案例
和中间的案例进行匹配的概率出现了人为制造的不同。
笔者尝试对限制随机化进行改进,在新的框架下把对全体的置换
检验、限制随机化和对连续变量的处理统一到一起,这种改进的方法可
称作“模糊置换检验”。在新的框架下理解置换检验,我们可以采取一
种改进的策略应对连续变量。这一方法并不能化解罗森鲍姆指出的所
有问题,但能有所帮助。改进的置换检验过程可以分为如下步骤:
1. 选择一个要检验的统计量,即 犛 ( 犜 )。
2. 对初始的数据计算 犛 ( 犜 )。
3. 选取关心的协变量 犡 ,对每一个 犡 的观测值 狓 按照离散的概率
分布 狆 加上一个随机数 δ ,获得新的协变量 犡 ’,并在 犡 ’的取值构成的
组内重新排列观测值并重新计算 犛 ( 犜 )。
4. 不断重复步骤 3 ,从而获得 犛 ( 犜 )的置换分布。
5. 根据 犛 ( 犜 )与其置换分布临界值的相对关系,选择接受或拒绝
原假设。
具体来说,就是在重新分配编号之前,先在变量取值上以一定的概
率分布加一个值,以利于随机变化之后的取值分组进行重新分配,相当
于使分组配对具有了“模糊性”。例如,某一 29 岁的丈夫在随机增减的
过程中变成 31 岁,也就意味着他会与另一位随机增减后变为 31 岁的
丈夫交换位置。如果上文这第二位丈夫原本年龄即为 31 岁,也就意味
着第一位丈夫的配偶放松了在年龄上的择偶标准,在一定概率下匹配
了一位年龄比元配大两岁的丈夫。
· 1 2 0 ·