Page 230 - 《社会》2015年第4期
P. 230
Lo g istic 模型的系数比较问题及解决策略:一个综述
题在于未观测到的异质性( 狌狀狅犫狊犲狉狏犲犱犺犲狋犲狉狅 犵 犲狀犲犻狋 狔 ),即由未纳入模型的
忽略变量( 狅犿犻狋狋犲犱狏犪狉犻犪犫犾犲狊 )所引起的因变量变异情况。 4
在一般的线性回归模型中,误差项往往被假定为服从均值为 0 ,方
差为某一常数的正态分布。所以线性回归的总方差是固定的,只要因
变量不变,其相对于均值的总的离差平方和就不变。但是 犔狅 犵 犻狊狋犻犮 模
型的总方差会随着自变量的加入或减少而变化。
首先,我们以潜变量的方式来看待二分变量。虽然观察到的因变量
取值是 1 (成功)和 0 (失败),但可以假想因变量是未被观测到一种倾向
性,即连续变量 狔 。当 狔 > 0 时, = 1 ;当 狔 ≤ 0 时, =0 。 5 以潜变量
狔
狔
狔 为因变量的模型如方程 1 所示,这和一般 犗犔犛 模型是相同的,唯一的
差别在于我们无法观测到因变量 狔 。在方程 1 中, 的总方差由被解
狔
释的方差和未被解释方差两部分组成,但当我们用方程 2 来估计这一潜
变量模型时,却把未被解释部分的方差(残差方差)设置为固定值。
为什么要把残差方差设为固定值?在线性回归模型中,因为因变
量 狔 是可观测的,所以可以对残差方差进行估计,但在二分因变量模型
中,由于因变量 狔 是无法观测到的,所以必须对残差方差进行假定,否
则方程就无法辨识( 狌狀犻犱犲狀狋犻犳犻犲犱 )( 犔狅狀 犵犪狀犱犉狉犲犲狊犲 , 2001 : 102 )。 6 之所
以要对残差方差进行标准化,是因为二分因变量 本身不含有尺度
狔 犻
的绝对大小不可确定,但它们之
(标尺)信息,使方程中自变量系数 β 犽
间的相对大小是可以被估计的(谢宇, 2010 : 340 )。在 犔狅 犵 犻狊狋犻犮 回归模
型中,误差项被设定为服从标准 犔狅 犵 犻狊狋犻犮 分布,即残差的均值为 0 ,方差
为 π / 3 ,约等于 3.29 。 7
2
由于未被解释的残差方差被设定为固定值,所以,只要被解释的方
4. 这一问题也被称做“残差变异”( 狉犲狊犻犱狌犪犾狏犪狉犻犪狋犻狅狀 )。对 犘狉狅犫犻狋 模型中的这一问题分析,可
参见伍德里奇( 犠狅狅犾犱狉犻犱 犵 犲 , 2002 : 470-472 )的研究。
5. 转换( 狋狉犪狀狊犳狅狉犿犪狋犻狅狀 )视角和潜变量视角是理解分类变量的两种主要路径(鲍威斯、谢宇,
2009 )。
6. “可辨识”是指如果根据充分或完备的观测数据能确定方程参数的唯一解,那么方程就是
可辨识的,需要注意的是,辨识问题不是统计推论问题,和抽样无关,而是模型设置问题(贝
里, 2012 : 26-27 )。
7. 在 犘狉狅犫犻狋 模型中,残差被设定为服从均值为 0 ,方差为 1 的标准正态分布。有关潜变量的
线性模型与非线性概率模型之间的对应关系可参见朗和弗瑞斯( 犔狅狀 犵犪狀犱犉狉犲犲狊犲 , 2001 : 100
-103 )的研究。
· 2 2 3 ·