Page 230 - 《社会》2015年第4期
P. 230

Lo g istic 模型的系数比较问题及解决策略:一个综述


   题在于未观测到的异质性( 狌狀狅犫狊犲狉狏犲犱犺犲狋犲狉狅 犵 犲狀犲犻狋 狔     ),即由未纳入模型的
   忽略变量( 狅犿犻狋狋犲犱狏犪狉犻犪犫犾犲狊 )所引起的因变量变异情况。 4

       在一般的线性回归模型中,误差项往往被假定为服从均值为 0 ,方
   差为某一常数的正态分布。所以线性回归的总方差是固定的,只要因
   变量不变,其相对于均值的总的离差平方和就不变。但是 犔狅 犵 犻狊狋犻犮 模
   型的总方差会随着自变量的加入或减少而变化。
       首先,我们以潜变量的方式来看待二分变量。虽然观察到的因变量
   取值是 1 (成功)和 0 (失败),但可以假想因变量是未被观测到一种倾向
   性,即连续变量      狔   。当 狔 > 0 时, = 1 ;当   狔 ≤ 0 时, =0 。 5 以潜变量
                         
                                           
                                狔
                                                   狔
   狔   为因变量的模型如方程 1 所示,这和一般 犗犔犛 模型是相同的,唯一的
                                                  
   差别在于我们无法观测到因变量               狔   。在方程 1 中, 的总方差由被解
                                                狔
   释的方差和未被解释方差两部分组成,但当我们用方程 2 来估计这一潜
   变量模型时,却把未被解释部分的方差(残差方差)设置为固定值。
       为什么要把残差方差设为固定值?在线性回归模型中,因为因变
   量 狔 是可观测的,所以可以对残差方差进行估计,但在二分因变量模型
   中,由于因变量       狔  是无法观测到的,所以必须对残差方差进行假定,否
   则方程就无法辨识( 狌狀犻犱犲狀狋犻犳犻犲犱 )( 犔狅狀 犵犪狀犱犉狉犲犲狊犲 , 2001 : 102 )。 6 之所

   以要对残差方差进行标准化,是因为二分因变量                           本身不含有尺度
                                                狔 犻
                                     的绝对大小不可确定,但它们之
   (标尺)信息,使方程中自变量系数 β 犽
   间的相对大小是可以被估计的(谢宇, 2010 : 340 )。在 犔狅 犵 犻狊狋犻犮 回归模
   型中,误差项被设定为服从标准 犔狅 犵 犻狊狋犻犮 分布,即残差的均值为 0 ,方差
   为 π / 3 ,约等于 3.29 。 7
       2
       由于未被解释的残差方差被设定为固定值,所以,只要被解释的方


   4. 这一问题也被称做“残差变异”( 狉犲狊犻犱狌犪犾狏犪狉犻犪狋犻狅狀 )。对 犘狉狅犫犻狋 模型中的这一问题分析,可
   参见伍德里奇( 犠狅狅犾犱狉犻犱 犵 犲 , 2002 : 470-472 )的研究。
   5. 转换( 狋狉犪狀狊犳狅狉犿犪狋犻狅狀 )视角和潜变量视角是理解分类变量的两种主要路径(鲍威斯、谢宇,
   2009 )。
   6. “可辨识”是指如果根据充分或完备的观测数据能确定方程参数的唯一解,那么方程就是
   可辨识的,需要注意的是,辨识问题不是统计推论问题,和抽样无关,而是模型设置问题(贝
   里, 2012 : 26-27 )。
   7. 在 犘狉狅犫犻狋 模型中,残差被设定为服从均值为 0 ,方差为 1 的标准正态分布。有关潜变量的
   线性模型与非线性概率模型之间的对应关系可参见朗和弗瑞斯( 犔狅狀 犵犪狀犱犉狉犲犲狊犲 , 2001 : 100
   -103 )的研究。

                                                          · 2 2 3 ·
   225   226   227   228   229   230   231   232   233   234   235