Page 14 - 《社会》2017年第2期
P. 14

罚似然图模型与社会网络测量


   到该网络的关系测度。
       一般采用最大似然法来估计精度矩阵 ∑                   -1 。用 犛 表示 犡 的经验
   协方差矩阵,高斯对数最大似然的公式表达如下:
                        犾狅 犵 det Θ- 狋狉犪犮犲 ( 犛 Θ )              ( 1 )
      其中 Θ 表示逆协方差矩阵,即 Θ=∑                -1 。使公式( 1 )最大化可得
                ︵    -1
   最大似然估计 Θ=犛          。但是就大规模观测数据来说,存在两个基本
   特征。一是高维性,社会网络数据通常包含大量的节点(变量),用矩阵
   表示即变量数       狆  大于观测数 狀 ,在此情况下,经验协方差矩阵 犛 为奇异
   矩阵,并不可逆,从而无法估计 Θ 矩阵。即使                   狆≈狀 ,并且 犛 不为奇异
   矩阵, Θ 的最大似然估计也会由于过高的方差而失去效力。二是稀疏
   性,用图模型表示的社会网络数据存在大量的两两条件独立变量,即
   Θ 中存在很多零元素;而根据使公式( 1 )最大化估计得到的 Θ 一般来
   说不存在值为 0 的元素。基于这两个性质,样本协方差矩阵不可逆,估
   计逆协方差矩阵时存在不稳定、计算成本高、不精确等问题。
       (二)罚似然估计法
       1. 罚似然估计法
       近几十年来,统计学家针对高维稀疏数据提出了很多解决方案,其
   中蒂施莱尼( 犜犻犫狊犺犻狉犪狀犻 , 1996 )所提出的罚似然回归法成为主流方法,
   并被其他研究者进一步扩展和引入到高斯图模型中( 犕犲犻狀狊犺犪狌狊犲狀犪狀犱
   犅ü犺犾犿犪狀狀 , 2006 ; 犢狌犪狀犪狀犱犔犻狀 , 2007 ; 犘犲狀 犵犲狋犪犾. , 2009 )。罚似然法是
                                        ,
   在线性回 归 公 式 中 引 入 一 个 约 束 项 ( 狉犲 犵 狌犾犪狉犻狕犲狉 )或 惩 罚 项 ( 犲狀犪犾狋 狔
                                                           狆
  狋犲狉犿 ) Θ ,并由一个非负的优化参数( 狋狌狀犻狀 犵狆 犪狉犪犿犲狋犲狉 ) λ 来控制。当 λ
   足够大时, Θ 的一些元素的值将等于 0 ,也就是说 λ 值越大,所估计的
   逆协方差矩阵越稀疏。即使在              狆>狀 的情形下,公式仍能够求解,其表
   达式如下:
                        {                             }        ( 2 )
              犿犪狓犻犿犻狕犲 Θ 犾狅 犵 det Θ- 狋狉犪犮犲 ( 犛 Θ ) -λ‖Θ‖ 1
                         罚则, 1 表示对矩阵 Θ 的所有元素的绝对值求
      其中, ‖Θ‖ 1     为 犾 1
   1. 除了公式( 2 )提到的一范数( 犾 1 ),罚则范数的选择还包括零范数( 犾 0 )、二范数( 犾 2 )(岭回
   归)、核范数( 狀狌犮犾犲犪狉狀狅狉犿 ),以及混合一范数和二范数的弹性网回归( 犈犾犪狊狋犻犮犖犲狋 )( 犣狅狌犪狀犱
   犎犪狊狋犻犲 , 2005 ),等等。更确切地说,本文所指的罚则模型是基于范数的罚则图模型( 犾犪狊狊狅 图
   模型),包括融合了 犾 1 范数和其他范数的扩展模型,本文后续所介绍的某些模型会采用弹性
   网或多种罚则范数来处理。
                                                            · 7 ·
   9   10   11   12   13   14   15   16   17   18   19