Page 197 - 《社会》2017年第1期
P. 197
社会· 2017 · 1
异区间,即置信区间。模型的不确定性则来自 犳 (·)。比如,在线性模
型中通过引入变量的二次方、三次方等项, 犢 与 犡 的关系可以呈现线
形、抛物线形、波浪形等多种模型形式。
在模型( 1 )中,参数的不确定性一般通过标准误来表示。然而,对
标准误的使用方式却因研究目的不同而有所差异。对大多数社会学经
验研究而言,标准误主要起到假设检验的作用。通过观察 0 值是否在
置信区间之内,研究者能够近似判断回归系数在总体层面的统计显著
性。诚然,如果研究者仅仅关注某一特定变量的处理效果在总体中是
否成立(即显著不为零),这样操作就是妥当的。但如果研究者的目的
不是检验假设,而是希望通过统计模型来预测因变量的取值,标准误能
够告诉研究者的就不再仅仅是统计上是否显著,而是基于此模型预测
得到的因变量取值所可能体现出的变动区间。比如,假设我们估计一
个简单线性回归模型 犈 () = β 狓 ,其中回归系数 β 的点估计值为 0.5 ,
狔
95% 的置信区间为 0.3 — 0.6 。此时,如果用 狓 去预测 狔 的时候,在总
体层面,我们基本可以认为 狔 的期望值在 0.3狓 和 0.6狓 之间。换句话
说,当我们用统计模型来做预测的时候, 的预测值由于参数 β 本身的
狔
不确定性而存在变化。这一点在倾向值方法中尤为明显,因为倾向值
方法的第一步恰恰要求研究者通过统计模型来预测每一个研究对象的
倾向值 得 分 ( 犕犮犆犪狀犱犾犲狊狊 , 犲狋犪犾. , 2009 ; 犃狀 , 2010 ; 犓犪 狆 犾犪狀犪狀犱犆犺犲狀 ,
2012 , 2014 )。
与参数不确定性相比,模型形式的不确定性不再关注模型系数和
预测值的变动,而是强调模型本身所具有的多种形式。模型形式的多
样性在社会科学的不同学科中都很常见,因为很多研究者在分析数据
的过程中往往会拟合多个统计模型。比如,在分析教育的经济回报时,
研究者可能尝试放入不同的控制变量,从而得到不同的统计模型(例
如,一个模型控制了居住地,而另一个模型没有考虑居住地)。尽管此
类实践非常普遍,但最终报告统计分析结果的时候,读者能够看到的只
是诸多备选模型中的一个,也即研究者在众多模型中有意和无意所选
取的一个最优模型。此时,其他备选模型都被忽略了。这种对模型形
式不确定的忽视会带来经济学家利摩尔( 犔犲犪犿犲狉 , 1983 )所谈到的“视
界问题”( 狋犺犲犺狅狉犻狕狅狀狆 狉狅犫犾犲犿 )。所谓视界,是指研究者在分析经验数
据时所可能持有的潜在假设、倾向和偏好等。利摩尔认为,社会科学研
· 1 9 0 ·