Page 199 - 《社会》2017年第1期
P. 199
社会· 2017 · 1
三、倾向值方法中的“不确定性”问题
在这一部分,笔者着重讨论倾向值方法中的系数不确定性与模型
形式不确定性问题。常规的倾向值方法一般关注的是一个二分处理变
量 犡 对于因变量 犢 的影响。由于存在混淆变量 犝 ,我们需要首先利用
犝 去预测 犡=1 的概率,也即倾向值得分。然后,通过某种数据处理手
段(例如匹配),研究者可以近似地保证被研究个体的倾向值得分彼此
接近,之后便可以采用一般的线性模型来分析 犡 与 犢 的关系。这一分
析思路可以用式( 2 )表示:
(
烄 p X =1 ) = ex pγ U )
(
(
烅 1+ex pγ U ) ( 2 )
烆 Y = β X+ ε ,基于匹配样本
在式( 2 )中,我们用逻辑斯蒂回归计算倾向值得分 ( 犡=1 ),其中混
狆
淆变量 犝 的系数表示为 γ 。之后,假设这里采用了倾向值匹配的策略,
我们可以基于匹配样本( 犿犪狋犮犺犲犱狊犪犿 狆 犾犲 )来拟合 犢 与 犡 的简单线性回归
模型。此时, 犡 的系数 β 便是我们所关注的因果效应。在式( 2 )中,模型
形式的不确定性主要发生在预测倾向值的逻辑斯蒂模型中。 6 这里我们
、 、 ,其中,每个备选模型
假设备选模型有 犽 个,分别表示为 犕 1 犕 2 ... 、 犕 犽
)。在每个备选模型下,我们进一步设定,混淆变
的先验概率设为 π ( 犕 犽
)。基于这些设定,我们便可以进行“贝
量的系数的先验概率为 π ( γ| 犕 犽
叶斯模型平均法”的计算。这些设定的基本信息参见式( 3 ):
)
烄 M k ~π ( M k
烅 ) ( 3 )
γ狘M k ~π ( γ狘M k
烆 X狘 γ , M k ~ 逻辑斯蒂分布( γ U )
“贝叶斯模型平均法”的基本思路在于,通过上述的参数设定来计
算特定的观测数据下每个备选模型的后验概率 ( 犕 犽 | 犡 )。这一后验
狆
概率可以近似的理解为特定备选模型就某一观测数据所具有的“解释
力”。解释力高的模型对于数据的拟合效果更好,也就更应当保留。按
照“贝叶斯定理”,模型 犽 的后验概率可以表示为:
6. 理论上讲,如果结果模型中也纳入其他控制变量的话,结果模型中也会存在模型不确定性
问题。为了计算方便,本文的结果模型设定为一个简单线性模型。由于简单线性模型只有一
个自变量,因此,结果模型便不存在模型不确定性问题。
· 1 9 2 ·