Page 199 - 《社会》2017年第1期

P. 199

社会· ２０１７ · １

三、倾向值方法中的“不确定性”问题

在这一部分，笔者着重讨论倾向值方法中的系数不确定性与模型
形式不确定性问题。常规的倾向值方法一般关注的是一个二分处理变
量犡对于因变量犢的影响。由于存在混淆变量犝，我们需要首先利用
犝去预测犡＝１的概率，也即倾向值得分。然后，通过某种数据处理手
段（例如匹配），研究者可以近似地保证被研究个体的倾向值得分彼此
接近，之后便可以采用一般的线性模型来分析犡与犢的关系。这一分
析思路可以用式（２）表示：
（
烄ｐＸ＝１）＝ｅｘｐγ Ｕ）
（
（
烅１＋ｅｘｐγ Ｕ）（２）
烆Ｙ＝ β Ｘ＋ ε ，基于匹配样本
在式（２）中，我们用逻辑斯蒂回归计算倾向值得分（犡＝１），其中混
狆
淆变量犝的系数表示为 γ 。之后，假设这里采用了倾向值匹配的策略，
我们可以基于匹配样本（犿犪狋犮犺犲犱狊犪犿狆犾犲）来拟合犢与犡的简单线性回归
模型。此时，犡的系数 β 便是我们所关注的因果效应。在式（２）中，模型
形式的不确定性主要发生在预测倾向值的逻辑斯蒂模型中。６这里我们
、、，其中，每个备选模型
假设备选模型有犽个，分别表示为犕１犕２．．．、犕犽
）。在每个备选模型下，我们进一步设定，混淆变
的先验概率设为 π （犕犽
）。基于这些设定，我们便可以进行“贝
量的系数的先验概率为 π （ γ｜犕犽
叶斯模型平均法”的计算。这些设定的基本信息参见式（３）：
）
烄Ｍｋ～π （Ｍｋ
烅）（３）
γ狘Ｍｋ～π （ γ狘Ｍｋ
烆Ｘ狘 γ ，Ｍｋ～逻辑斯蒂分布（ γ Ｕ）
“贝叶斯模型平均法”的基本思路在于，通过上述的参数设定来计
算特定的观测数据下每个备选模型的后验概率（犕犽｜犡）。这一后验
狆
概率可以近似的理解为特定备选模型就某一观测数据所具有的“解释
力”。解释力高的模型对于数据的拟合效果更好，也就更应当保留。按
照“贝叶斯定理”，模型犽的后验概率可以表示为：

６．理论上讲，如果结果模型中也纳入其他控制变量的话，结果模型中也会存在模型不确定性
问题。为了计算方便，本文的结果模型设定为一个简单线性模型。由于简单线性模型只有一
个自变量，因此，结果模型便不存在模型不确定性问题。
· １９２ ·

194 195 196 197 198 199 200 201 202 203 204