Page 207 - 《社会》2017年第1期
P. 207
社会· 2017 · 1
表 1 的第一列是我们设定的 18 个混淆变量和截距项。这些混淆
变量被用来估计倾向值得分。第二列的信息是在所有备选模型中,每
一个变量(包括截距)被纳入某一模型进行倾向值估算的概率。如果概
率为 0 ,说明这个变量在所有备选模型中都不会被考虑到。同理,如果
概率为 1 ,则说明这个混淆变量非常重要,故而所有的备选模型都会考
虑到它。例如, 狓2 的不为 0 概率是 1 ,说明所有的候选模型都会纳入
狓2 。与之相比, 狓3 几乎不会被任何模型考虑,而 狓1 只被纳入不到 6 个
候选模型(一共 12 个备选模型, 120×0.46=5.52 )。从某种意义上说,
表 1 第二列告诉我们的是,不同的混淆变量在预测倾向值得分的时候
具有不同程度的“重要性”或者“相关性”。从第三列开始,表 1 列举了
不同的备选模型。如上所述,这里我们只保留了 5 个备选模型。其中,
模型 1 是基于现有数据最好的模型,其后验概率为 0.18 。在模型 1
中,并非所有的混淆变量都被考虑进来。恰恰相反,除了截距之外,模
型 1 仅仅纳入 3 个混淆变量( 狓2 、 狓6 和 狓15 )。同理,模型 2 纳入 4 个变
量( 狓1 、 狓2 、 狓6 和 狓15 ),其后验概率为 0.16 ,以此类推。按照表 1 所示
的结果,我们实际上有 5 种不同的备选模型来预测倾向值得分,这就是
所谓的模型形式的不确定性问题。
表 2 :不同模型估计的倾向值的相关系数矩阵
实际 基于模型 1 基于模型 2 基于模型 3 基于模型 4 基于模型 5
倾向值 的估计 的估计 的估计 的估计 的估计
实际倾向值 1
基于模型 1 的估计 0.64 1
基于模型 2 的估计 0.68 0.94 1
基于模型 3 的估计 0.74 0.90 0.95 1
基于模型 4 的估计 0.70 0.95 0.89 0.94 1
基于模型 5 的估计 0.62 0.96 0.91 0.87 0.91 1
“蒙特卡洛模拟”的一个好处是,我们能够预先知道真正的倾向值
是多少,并用它来和不同的模型所预测的倾向值比较(这方面的信息参
见表 2 )。在表 2 中,我们计算了实际倾向值得分与基于不同模型所估
计出的倾向值得分之间的相关系数矩阵。可以发现,虽然基于不同的
模型所估计出的倾向值得分总是和实际的倾向值得分正相关,但这种
相关性并不是非常强。例如,我们用最好的模型估计的倾向值得分与
实际倾向值得分之间的相关系数为 0.64 。最高的相关系数来自模型 3
· 2 0 0 ·