Page 196 - 《社会》2017年第1期
P. 196
统计模型的“不确定性”问题与倾向值方法
决定应当采用哪些混淆变量来预测倾向值( 犠犲狊狋犲狉狀 , 1996 )。所以,在
大多数情况下,混淆变量的纳入依据颇具主观性。此时,不同的混淆变
量组合就会就产生多个备选模型,从而带来模型形式的不确定性。在
倾向值方法中,这两种不确定性同时存在。也即,每一个备选模型都会
存在一个倾向值的变动区间。很明显,这两类模型不确定性的共同作
用使得倾向值方法最终的分析结果存在不容忽视的不确定性问题。
在此背景下,本研究的目标有三:第一,通过系统梳理目前统计学、
经济学、政治学、社会学、心理学等不同学科对于统计模型不确定性问题
的讨论,帮助量化社会学研究者对于模型不确定性问题有一个系统和清
晰的了解与把握。第二,目前对于统计模型不确定性问题的探讨往往片
面关注上述两种不确定中的一种。本文通过“蒙特卡洛模拟”与经验实
例,展示这两类不确定性如何共同作用,以影响倾向值分析的结果。此
外,通过综合运用“贝叶斯模型平均法”与“似然函数联合估计法”,本研
究提供了一种同时处理两种不确定性问题的实践策略(有关这一部分的
讨论下面有专门展开)。第三,基于对模型不确定性的理论探讨和经验
分析,本文进一步论述了统计模型不确定性问题对如何提高社会科学量
化结果的可信度和接受度,如何建立可复制的社会学量化研究,以及如
何避免“统计至上主义”( 狊狋犪狋犻狊狋犻犮犻狊犿 )等重要议题所具有的启示。
二、什么是统计模型的“不确定性”
由于社会学量化研究中普遍使用线性模型,这部分对于统计模型
不确定性的讨论主要依据线性模型展开。具体而言,一个线性模型可
以表示为以下形式:
Y =f ( X ) + ε ( 1 )
其中, 犢 是我们希望解释的因变量向量, 犡 是用以解释 犢 的自变量与控
制变量构成的矩阵, 犳 ( 犡 )是衡量 犡 与 犢 关系的一个函数, ε 代表了一种
随机扰动向量。在这个表达式中,我们关心的是 犳 ( 犡 )。例如,在一般
线性模型中, 犳 ( 犡 )采用了一个最简单的线性组合的方式,即 犡 与其系
数向量 β 的乘积 β 犡 。而在其他广义线性模型中, 犳 ( 犡 )可以是某种函数
变换(例如逻辑斯蒂变换)。模型( 1 )很好地展示了上文所谈到的两种
不确定性。其中,参数的不确定性取决于 ε 。我们通过假设随机扰动 ε
的分布来确定因变量 犢 的分布,由此,我们便可以建立估计系数的变
· 1 8 9 ·