Page 12 - 《社会》2017年第2期
P. 12
罚似然图模型与社会网络测量
在过去的十几年,在许多学科特别是在生物学( 犉狉犻犲犱犿犪狀 , 犲狋犪犾. ,
,
2000 )、基因 学 ( 犌犺犪狕犪犾 狆 狅狌狉 , 犲狋犪犾. , 2006 )、神 经 科 学 ( 犎狌犪狀 犵 犲狋犪犾. ,
2010 )等领域,高斯图模型已经成为非常流行的对复杂系统进行抽象并
获得关于大规模观测变量的关联模式的一种处理手段。相比于前述的
降模映射法、相关系数法等处理方法,高斯图模型的计算结果不但避免
了前述几种处理方法的缺点,能够较好地探测出真实的网络结构特征,
而且具有可解释性强、扩展性高的特点,在面对不同问题时具有强大的
解决能力。然而在社会科学领域,相关的研究尚不多见,仅有个别学者
(如陈华珊, 2015 )用高斯图模型研究美国参议院投票网络、在线论坛发
帖网络等。相较于图模型在自然科学领域应用的流行性,社会科学领
域对它的认识和使用还非常粗浅。在此,本文尝试对高斯图模型进行
介绍,以期引起社会科学界同仁的重视并推动相关的研究与应用。
二、高斯图模型
(一)高斯图模型的基本形式
将观测数据的发生矩阵用一个 狀×狆 的矩阵 犡 来表示:
)
,…, 犡 狆 ~ 犖 (, )
X = ( 犡 1 μ ∑
其中, 狀 为观测数, 为变量数,观测之间相互独立,且 犡 为多元
狆
正态分布随机变量。假设 犡 的协方差矩阵 ∑ 为正定矩阵,那么分布的
条件依赖结构可用高斯图模型 犵= ( Γ , 犈 )来表示,其中 Γ= { 1 ,…, }
狆
表示节点集合;而 犈 是一个 Γ×Γ 的边的集合。在高斯图模型中,节
点表示变量,边表示一对变量的条件依赖关系。在控制所有其他变量
的情况下,满足 犡 Γ\ { 犪 , 犫 }= { 犡 犽 犽∈Γ\ { 犪 , 犫 }}。两个节点的关系{ 犪 , 犫 }
;
。对于没有包含在集
出现在边集合 犈 中,当且仅当 犡 犪 条件依赖于 犡 犫
合 犈 中的其他成对变量,意味着在控制所有其他变量的情况下条件独
立。因此,高斯图模型也经常被称为条件依赖网络( 犔犪狌狉犻狋狕犲狀 , 1996 ),
即如果一对变量为条件依赖,则其对应的两个节点之间可用一个连线
(边)来连结,反之,节点之间不存在连线。
在此,对矩阵 犡 中节点的两两关 系的 估计 也被称 为“邻域选择”
( 狀犲犻 犵 犺犫狅狉犺狅狅犱狊犲犾犲犮狋犻狅狀 ),其实质是协方差选择问题。邻域选择的目
的是对于给定的 狀 个 犻.犻.犱 观测 犡 ,分别估计每个变量(节点)的相邻
· 5 ·