Page 214 - 《社会》2017年第1期
P. 214
统计模型的“不确定性”问题与倾向值方法
查数据分析,展示了量化研究过程中研究者所可能面对的多个备选模
型,以及如何通过“贝叶斯平均法”进行备选模型的展示与选择。之后,
在利用似然方程联合估计来分析系数不确定性的时候,本文的研究亦
表明,在考虑倾向值估计过程的不确定性之后,结果模型中对于因果关
系的估计呈现出更小的置信区间和更高的统计效率。
统计模型的不确定性问题对于当下社会学的量化研究具有重要的
启示价值。首先,正视统计模型的不确定性对于提高社会学量化研究
的可信度具有积极的作用。社会学家瓦茨( 犠犪狋狋狊 , 2015 )最近撰文指
出,长 期 以 来,社 会 学 经 验 研 究 结 果 总 是 服 从 于 “可 理 解 性 ”
( 狌狀犱犲狉狊狋犪狀犱犪犫犻犾犻狋 狔 )原则。也就是说,社会学家总是试图让自己的研究
结果服从于人们的常识判断,让人们能够“理解”,觉得“有道理”。如果
一项研究的结果和大家的常识相左(例如,发现读书越多,收入越低),
那么研究者往往就会怀疑并修正自己的模型设定(例如增加或者减少
控制变量、增加交互项等等),直至最终满足“可理解性”原则(例如,修
正后的结论变成了读书越多,收入越多)。不难发现,如果社会学者总
是遵从瓦茨所批评的“可理解性”原则,那么量化研究便会成为利摩尔
眼中的“数据按摩”,其结论便会成为常识的复制。而常识本身的个体
性与不稳定性则进一步决定了量化研究结论具有很低的可信度或者很
小的适用范围。因此,为了提高社会学经验研究的可信度与影响力,我
们需要做的是避免屈从于常识判断来选择统计模型,而应付诸于正式
的模型选择过程。此时,最后所报告的模型不再是研究者所主观认可
的“最优模型”,而是数据所反映的“最优模型”,其模型系数无论和常识
一致与否,都是最能反映当下数据信息的真正“最优”结果。
其次,统计模型的不确定性也对正在兴起的“可复制性研究”具有
启示作用(陈云松、吴晓刚, 2012 )。所谓“可复制性研究”,是指某个研
究者的分析能够为其他研究者所重复以交叉验证其分析结果。到目前
为止,可复制性研究一般要求研究者向学界同行提供分析代码,以便于
其他研究者可以基于这一代码进行重复分析。但是,从统计模型的不
确定性角度出发,仅仅是提供研究者所使用的代码或许并不能够完全
涵盖可复制研究的全部内涵,这是因为,研究者所提供的代码本身已经
是研究者的假设、偏好等“视界”( 犔犲犪犿犲狉 , 1983 )的产品。因此,一个更
为全面的可复制研究不仅需要研究者提供某个模型的复制过程和分析
· 2 0 7 ·