Page 196 - 《社会》2017年第1期

P. 196

统计模型的“不确定性”问题与倾向值方法

决定应当采用哪些混淆变量来预测倾向值（犠犲狊狋犲狉狀，１９９６）。所以，在
大多数情况下，混淆变量的纳入依据颇具主观性。此时，不同的混淆变
量组合就会就产生多个备选模型，从而带来模型形式的不确定性。在
倾向值方法中，这两种不确定性同时存在。也即，每一个备选模型都会
存在一个倾向值的变动区间。很明显，这两类模型不确定性的共同作
用使得倾向值方法最终的分析结果存在不容忽视的不确定性问题。
在此背景下，本研究的目标有三：第一，通过系统梳理目前统计学、
经济学、政治学、社会学、心理学等不同学科对于统计模型不确定性问题
的讨论，帮助量化社会学研究者对于模型不确定性问题有一个系统和清
晰的了解与把握。第二，目前对于统计模型不确定性问题的探讨往往片
面关注上述两种不确定中的一种。本文通过“蒙特卡洛模拟”与经验实
例，展示这两类不确定性如何共同作用，以影响倾向值分析的结果。此
外，通过综合运用“贝叶斯模型平均法”与“似然函数联合估计法”，本研
究提供了一种同时处理两种不确定性问题的实践策略（有关这一部分的
讨论下面有专门展开）。第三，基于对模型不确定性的理论探讨和经验
分析，本文进一步论述了统计模型不确定性问题对如何提高社会科学量
化结果的可信度和接受度，如何建立可复制的社会学量化研究，以及如
何避免“统计至上主义”（狊狋犪狋犻狊狋犻犮犻狊犿）等重要议题所具有的启示。

二、什么是统计模型的“不确定性”

由于社会学量化研究中普遍使用线性模型，这部分对于统计模型
不确定性的讨论主要依据线性模型展开。具体而言，一个线性模型可
以表示为以下形式：
Ｙ＝ｆ（Ｘ）＋ ε （１）
其中，犢是我们希望解释的因变量向量，犡是用以解释犢的自变量与控
制变量构成的矩阵，犳（犡）是衡量犡与犢关系的一个函数， ε 代表了一种
随机扰动向量。在这个表达式中，我们关心的是犳（犡）。例如，在一般
线性模型中，犳（犡）采用了一个最简单的线性组合的方式，即犡与其系
数向量 β 的乘积 β 犡。而在其他广义线性模型中，犳（犡）可以是某种函数
变换（例如逻辑斯蒂变换）。模型（１）很好地展示了上文所谈到的两种
不确定性。其中，参数的不确定性取决于 ε 。我们通过假设随机扰动 ε
的分布来确定因变量犢的分布，由此，我们便可以建立估计系数的变

· １８９ ·

191 192 193 194 195 196 197 198 199 200 201