Page 19 - 《社会》2017年第2期
P. 19

社会· 2017 · 2

   向无权的二分双模网络数据估计得到无向有权的关系网络矩阵,不仅
   可以对关系的有无进行判定,还可以进行强度的比较,大大丰富了分析
   内容。除此之外,罚似然图模型还具有很强的扩展性,本节将对此进行
   详细介绍。
       经典的高斯图模型假设变量为多元正态分布,但在社会科学研究
   中,往往会遇到多种类型的数据,甚至是混合类型的数据,包括二分数
   据、定类数据、定序数据、计数数据、有偏分布的连续数据,等等。例如,
   前述的美国南方妇女数据即为二分变量;网民在论坛的发帖回帖数量
   为计数型变量;在某个场所停留的时间可视为计数型变量或有偏的连
   续变量。关于 健 康 领 域 的 社 会学 大数 据研究 则可 能要 考 虑性别(二
   分)、年龄(连续)、行为模式(计数)、事件发生的场所(类别)、用药的剂
   量(连续)等各类数据之间的关联模式。基于此,统计学家们发展了多
   种特殊模型予以解决。 5 略有遗憾的是,目前为止,尚未有一个软件包
   将所有数据类型综合到一个框架下进行处理。
       (一)带协变量的罚似然图模型
       在罚似然模型中,除了对所有变量加罚,还可以仅对部分变量加
   罚。将公式( 3 )的罚则项
                                狆
                             λ ∑  狘 犫 狆狘
                              狆 = 1
      改写为:
                                犿
                             λ ∑  狘 犫 狆狘
                              狆 = 1
      其中 犿 <狆     表示仅对部分自变量加罚。因此,很容易引入其他协
   变量进入模型。以 犇犌犌 数据为例,由于所记录的事件来自多种聚会类
   型,尽管人类学家们没有记录事件的具体类型从而缺失了相关信息,但
   是可以假设不同的活动类型与参与规模相关,进而影响不同人的参与
   程度。因此,在本示例中,将参与活动的人数作为协变量引入图模型,
   得到的结果如图 2 所示。与图 1 相比,在控制了参与规模这个因素之


   5. 针对二项分布数据的估计问题可进一步参考: 犅犪狀犲狉 犼 犲犲 , 犲狋犪犾. , 2008 ; 犚犪狏犻犽狌犿犪狉 , 犲狋犪犾. ,
   2008 ; 狏犪狀犅狅狉犽狌犾狅 , 犲狋犪犾. , 2014 。针对泊松分布数据可参考: 犃犾犾犲狀犪狀犱犔犻狌 , 2012 , 2013 。针对
   多分类分布可参考: 犇犪犻 , 犲狋犪犾. , 2013 。针对混合数据类型的估计问题可参考: 犆犺犲狀 , 犲狋犪犾. ,
   2015 ; 犎犪狊犾犫犲犮犽犪狀犱犠犪犾犱狅狉 狆 , 2015 。


    · 1 2 ·
   14   15   16   17   18   19   20   21   22   23   24