Page 27 - 《社会》2017年第2期
P. 27
社会· 2017 · 2
四、小结与讨论
本文简述了基于罚似然估计的高斯图模型及其扩展模型在社会科
学领域的应用。通过展示基本的罚似然估计原理以及一些特定的扩展
模型,可以看出相对于传统的双模数据处理方法,罚似然图模型具有非
常强的扩展性,在社会科学领域的应用潜力也非常大。通过对 犇犌犌 数
据的示例以及不同的假设设置,本文用罚似然图模型进一步发掘了数
据潜力,得到了与以往分析不同的结果。本文使用了两个示例数据集,
犇犌犌 是非常小的数据,而论文关键词示例规模相对适中( 492 个节点),
罚似然图模型在大规模数据分析中的应用可参考陈华珊( 2015 )对业主
论坛讨论的测量。
除了罚似然图模型,适合对高维稀疏双模数据进行网络关系判别
的方法 还 有 很 多,例 如 线 性 判 别 模 型、潜 狄 氏 聚 类 模 型 ( 犔犪狋犲狀狋
犇犻狉犻犮犺犾犲狋犃犾犾狅犮犪狋犻狅狀 )( 犅犾犲犻 , 犲狋犪犾. , 2003 ; 犅犾犲犻 , 2011 )等,甚至可以采用
神经网 络 领 域 的 词 向 量 模 型 ( 犕犻犽狅犾狅狏 , 犲狋犪犾. , 2013 ; 犘犲狀狀犻狀 犵 狋狅狀 , 犲狋
犪犾. , 2014 ))。通过这些模型将双模数据中的事件和成员映射到一个低
维的向量空间,再构建相互之间的关联矩阵,就可以得到一个新的表示
网络关系的结构。但是,上述模型对数据的生成机制有其特定的假设,
因此对最终网络关系的理解也会发生变化,研究者应谨慎对待。
在社会网络分析方法中,本文认为有必要区分两种不同的社会网
络测量类型。一是表征状态的社会网络,例如代表感知和情感关系的
友谊、信任、结盟等,这类数据通常以一种较为稳定的状态出现,比较适
合由受访者进行自我评估,用问卷调查的方式进行社会网络关系测量。
二是表征行为的社会网络数据,例如借贷行为网络、沟通行为网络、学
术论文的引证网络,等等。在以问卷调查为主要手段的数据收集过程
中,可收集到的后一类数据的规模通常较小,因此往往采取与前者同样
的方式处理。但随着大数据概念的深入和各类数据源的丰富,表征行
为的社会网络会越来越多地出现在社会学学者的视野中,且数据规模
远超以往。对于这类数据,除了描述事件的概貌之外,研究者们有理由
假设行为背后存在一个较为稳定的网络关系状态,因而需要对潜在的
网络关系模式进行推断。本文展示了用罚似然图模型对该类数据进行
潜在网络关系推断的优点。
· 2 0 ·