Page 199 - 《社会》2017年第1期
P. 199

社会· 2017 · 1


       三、倾向值方法中的“不确定性”问题

       在这一部分,笔者着重讨论倾向值方法中的系数不确定性与模型
   形式不确定性问题。常规的倾向值方法一般关注的是一个二分处理变
   量 犡 对于因变量 犢 的影响。由于存在混淆变量 犝 ,我们需要首先利用
   犝 去预测 犡=1 的概率,也即倾向值得分。然后,通过某种数据处理手
   段(例如匹配),研究者可以近似地保证被研究个体的倾向值得分彼此
   接近,之后便可以采用一般的线性模型来分析 犡 与 犢 的关系。这一分
   析思路可以用式( 2 )表示:
                                        (
                     烄 p X =1 ) =   ex pγ U )
                        (
                                          (
                     烅             1+ex pγ U )                 ( 2 )
                     烆 Y = β X+ ε ,基于匹配样本
      在式( 2 )中,我们用逻辑斯蒂回归计算倾向值得分 ( 犡=1 ),其中混
                                                   狆
   淆变量 犝 的系数表示为 γ 。之后,假设这里采用了倾向值匹配的策略,
   我们可以基于匹配样本( 犿犪狋犮犺犲犱狊犪犿 狆 犾犲 )来拟合 犢 与 犡 的简单线性回归
   模型。此时, 犡 的系数 β 便是我们所关注的因果效应。在式( 2 )中,模型
   形式的不确定性主要发生在预测倾向值的逻辑斯蒂模型中。 6 这里我们
                                    、 、        ,其中,每个备选模型
   假设备选模型有 犽 个,分别表示为 犕 1 犕 2 ... 、 犕 犽
                       )。在每个备选模型下,我们进一步设定,混淆变
   的先验概率设为 π ( 犕 犽
                               )。基于这些设定,我们便可以进行“贝
   量的系数的先验概率为 π ( γ| 犕 犽
   叶斯模型平均法”的计算。这些设定的基本信息参见式( 3 ):
                               )
                   烄 M k ~π ( M k
                   烅                  )                        ( 3 )
                    γ狘M k ~π ( γ狘M k
                   烆 X狘 γ , M k ~  逻辑斯蒂分布( γ U )
      “贝叶斯模型平均法”的基本思路在于,通过上述的参数设定来计
   算特定的观测数据下每个备选模型的后验概率 ( 犕 犽 | 犡 )。这一后验
                                              狆
   概率可以近似的理解为特定备选模型就某一观测数据所具有的“解释
   力”。解释力高的模型对于数据的拟合效果更好,也就更应当保留。按
   照“贝叶斯定理”,模型 犽 的后验概率可以表示为:


   6. 理论上讲,如果结果模型中也纳入其他控制变量的话,结果模型中也会存在模型不确定性
   问题。为了计算方便,本文的结果模型设定为一个简单线性模型。由于简单线性模型只有一
   个自变量,因此,结果模型便不存在模型不确定性问题。
    · 1 9 2 ·
   194   195   196   197   198   199   200   201   202   203   204