Page 195 - 《社会》2017年第1期
P. 195

社会· 2017 · 1

       从本质上讲,基于统计模型估计出的变量间关系代表的是一种概
   率关系而非决定性关系,对于这一点,目前社会学量化研究还没有给予
   足够的重视。在诠释量化模型结果的时候,很多学者倾向于采用一种
   “决定论”( 犱犲狋犲狉犿犻狀犻狊狋犻犮 )式的态度。比如,对于线性模型 犈 ( 犢 ) =β 犡 ,
   一般会将其诠释为: 犡 变动一个单位会带来 犢 的期望值 犈 ( 犢 )变动 β 个
   单位。这种诠释虽不错误,却片面的关注点估计( 狅犻狀狋犲狊狋犻犿犪狋犲 )结果,
                                               狆
   忽视了系数 β 本身也是存在变异( 狏犪狉犻犪狋犻狅狀 )的情况。换句话说, β 的“不
   确定性”( 狌狀犮犲狉狋犪犻狀狋犻犲狊 )没有被考虑到。
       按照统计学家德雷珀( 犇狉犪 狆 犲狉 , 1995 )的定义,一个统计模型至少
   存在两种“不确定性”。第一种被称为“参数( 犪狉犪犿犲狋狉犻犮 )的不确定性”。
                                          狆
   意指我们在利用样本数据估计整体( 狅狌犾犪狋犻狅狀 )模型系数的时候,由于
                                   狆狆
   样本本身的随机抽样,最后研究者得到的只能是一个关于某系数的变
   动区间,而不可能是一个百分之百确定的数值。 1 第二种“不确定性”是
   “模型形式( 犿狅犱犲犾犳狅狉犿 )的不确定性”。这种“不确定性”是指在分析特
   定研究问题的时候,研究者通常会面临很多备选模型,从而带来模型拟
   合形式上的不确定。 2 这两种统计模型的“不确定性”在当下逐渐兴起
   的倾向值方法中尤为突出。通常而言,倾向值分析要求研究者通过一
   个广义线性模型(例如逻辑斯蒂回归)计算出每个被研究个体的倾向值
   得分(此模型被称为“倾向值模型”),然后再将此倾向值得分通过细分

   ( 狊狌犫犮犾犪狊狊犻犳犻犮犪狋犻狅狀 )、加 权 ( 狑犲犻 犵 犺狋犻狀 犵 )、回 归 调 整 ( 狉犲 犵 狉犲狊狊犻狅狀
   犪犱 犼 狌狊狋犿犲狀狋 )等方式纳入结果模型( 狅狌狋犮狅犿犲犿狅犱犲犾 )。 3 在这样一个分析
   过程中,一方面,我们基于样本得到的广义线性回归模型系数会随着不
   同的抽样样本而变化,这就决定了我们基于此模型计算出的每个个体
   的倾向值得分也必然是一个随机变量,从而间接体现系数的不确定性。
   另一方 面,预 测 倾 向 值 得 分 的 时 候,我 们 会 考 虑 很 多 的 混 淆 变 量
   ( 犮狅狀犳狅狌狀犱犻狀 犵狏犪狉犻犪犫犾犲狊 )。 4 但是,社会学研究者在通常情况下需要自主


   1. 例如,当用样本收入均值估算总体收入均值时,我们无法知道总体收入均值的具体值,而只
   能估算出其可能取值的区间。这一区间的大小和我们希望达到的统计效率( 犲犳犳犻犮犻犲狀犮 狔 )有关。
   2. 一般而言,所有的备选模型构成了一个模型空间( 犿狅犱犲犾狊 狆 犪犮犲 )。
   3. 结果模型是指因变量为我们需要解释的变量的模型。与结果模型相比,倾向值方法中还
   涉及估算倾向值的广义线性模型,后者的因变量为处理变量( 狋狉犲犪狋犿犲狀狋 )。
   4. 混淆变量是指同时与因变量和自变量相关的变量。由于混淆变量的存在,自变量和因变
   量之间的关系有可能是虚假的。
    · 1 8 8 ·
   190   191   192   193   194   195   196   197   198   199   200