Page 19 - 《社会》2017年第2期
P. 19
社会· 2017 · 2
向无权的二分双模网络数据估计得到无向有权的关系网络矩阵,不仅
可以对关系的有无进行判定,还可以进行强度的比较,大大丰富了分析
内容。除此之外,罚似然图模型还具有很强的扩展性,本节将对此进行
详细介绍。
经典的高斯图模型假设变量为多元正态分布,但在社会科学研究
中,往往会遇到多种类型的数据,甚至是混合类型的数据,包括二分数
据、定类数据、定序数据、计数数据、有偏分布的连续数据,等等。例如,
前述的美国南方妇女数据即为二分变量;网民在论坛的发帖回帖数量
为计数型变量;在某个场所停留的时间可视为计数型变量或有偏的连
续变量。关于 健 康 领 域 的 社 会学 大数 据研究 则可 能要 考 虑性别(二
分)、年龄(连续)、行为模式(计数)、事件发生的场所(类别)、用药的剂
量(连续)等各类数据之间的关联模式。基于此,统计学家们发展了多
种特殊模型予以解决。 5 略有遗憾的是,目前为止,尚未有一个软件包
将所有数据类型综合到一个框架下进行处理。
(一)带协变量的罚似然图模型
在罚似然模型中,除了对所有变量加罚,还可以仅对部分变量加
罚。将公式( 3 )的罚则项
狆
λ ∑ 狘 犫 狆狘
狆 = 1
改写为:
犿
λ ∑ 狘 犫 狆狘
狆 = 1
其中 犿 <狆 表示仅对部分自变量加罚。因此,很容易引入其他协
变量进入模型。以 犇犌犌 数据为例,由于所记录的事件来自多种聚会类
型,尽管人类学家们没有记录事件的具体类型从而缺失了相关信息,但
是可以假设不同的活动类型与参与规模相关,进而影响不同人的参与
程度。因此,在本示例中,将参与活动的人数作为协变量引入图模型,
得到的结果如图 2 所示。与图 1 相比,在控制了参与规模这个因素之
5. 针对二项分布数据的估计问题可进一步参考: 犅犪狀犲狉 犼 犲犲 , 犲狋犪犾. , 2008 ; 犚犪狏犻犽狌犿犪狉 , 犲狋犪犾. ,
2008 ; 狏犪狀犅狅狉犽狌犾狅 , 犲狋犪犾. , 2014 。针对泊松分布数据可参考: 犃犾犾犲狀犪狀犱犔犻狌 , 2012 , 2013 。针对
多分类分布可参考: 犇犪犻 , 犲狋犪犾. , 2013 。针对混合数据类型的估计问题可参考: 犆犺犲狀 , 犲狋犪犾. ,
2015 ; 犎犪狊犾犫犲犮犽犪狀犱犠犪犾犱狅狉 狆 , 2015 。
· 1 2 ·