Page 12 - 《社会》2017年第2期
P. 12

罚似然图模型与社会网络测量


       在过去的十几年,在许多学科特别是在生物学( 犉狉犻犲犱犿犪狀 , 犲狋犪犾. ,
                                                          ,
   2000 )、基因 学 ( 犌犺犪狕犪犾 狆 狅狌狉 , 犲狋犪犾. , 2006 )、神 经 科 学 ( 犎狌犪狀 犵 犲狋犪犾. ,
   2010 )等领域,高斯图模型已经成为非常流行的对复杂系统进行抽象并
   获得关于大规模观测变量的关联模式的一种处理手段。相比于前述的
   降模映射法、相关系数法等处理方法,高斯图模型的计算结果不但避免
   了前述几种处理方法的缺点,能够较好地探测出真实的网络结构特征,
   而且具有可解释性强、扩展性高的特点,在面对不同问题时具有强大的
   解决能力。然而在社会科学领域,相关的研究尚不多见,仅有个别学者
   (如陈华珊, 2015 )用高斯图模型研究美国参议院投票网络、在线论坛发
   帖网络等。相较于图模型在自然科学领域应用的流行性,社会科学领
   域对它的认识和使用还非常粗浅。在此,本文尝试对高斯图模型进行
   介绍,以期引起社会科学界同仁的重视并推动相关的研究与应用。


       二、高斯图模型

       (一)高斯图模型的基本形式
       将观测数据的发生矩阵用一个 狀×狆                 的矩阵 犡 来表示:
                                   )
                            ,…, 犡 狆 ~ 犖 (,      )
                    X = ( 犡 1             μ ∑
      其中, 狀 为观测数, 为变量数,观测之间相互独立,且 犡 为多元
                        狆
   正态分布随机变量。假设 犡 的协方差矩阵 ∑ 为正定矩阵,那么分布的
   条件依赖结构可用高斯图模型              犵= ( Γ , 犈 )来表示,其中 Γ= { 1 ,…, }
                                                               狆
   表示节点集合;而 犈 是一个 Γ×Γ 的边的集合。在高斯图模型中,节
   点表示变量,边表示一对变量的条件依赖关系。在控制所有其他变量
   的情况下,满足 犡 Γ\ { 犪 , 犫 }= { 犡 犽 犽∈Γ\ { 犪 , 犫 }}。两个节点的关系{ 犪 , 犫 }
                             ;
                                               。对于没有包含在集
   出现在边集合 犈 中,当且仅当 犡 犪            条件依赖于 犡 犫
   合 犈 中的其他成对变量,意味着在控制所有其他变量的情况下条件独
   立。因此,高斯图模型也经常被称为条件依赖网络( 犔犪狌狉犻狋狕犲狀 , 1996 ),
   即如果一对变量为条件依赖,则其对应的两个节点之间可用一个连线
   (边)来连结,反之,节点之间不存在连线。
       在此,对矩阵 犡 中节点的两两关 系的 估计 也被称 为“邻域选择”
   ( 狀犲犻 犵 犺犫狅狉犺狅狅犱狊犲犾犲犮狋犻狅狀 ),其实质是协方差选择问题。邻域选择的目
   的是对于给定的 狀 个 犻.犻.犱 观测 犡 ,分别估计每个变量(节点)的相邻

                                                            · 5 ·
   7   8   9   10   11   12   13   14   15   16   17