Page 16 - 《社会》2017年第2期
P. 16
罚似然图模型与社会网络测量
模型以及避免模型的过度拟合,在机器学习理论中,一般采用交叉验证
( 犮狉狅狊狊狏犪犾犻犱犪狋犻狅狀 )的方式来进行,即将样本数据集分为训练集和测试
集,前者用来建立模型,后者则用来评估模型对未知样本进行预测时的
精确度。也有学者(如 犆犺犲狀犪狀犱犆犺犲狀 , 2008 ; 犉狅 狔犵 犲犾犪狀犱犇狉狋狅狀 , 2010 )
采用贝叶斯信息准则( 犅犐犆 )来评估模型,并针对其稀疏约束的特点提
出扩展贝叶斯信息准则( 犲犅犐犆 )。
(三)应用与示例
在社会科学 领 域,最 为 著名 的数 据 集 是 美 国 南 方 黑 人 妇 女 数 据
集, 2 被很多研究者所使用( 犉狉犲犲犿犪狀 , 2003 ; 犖犲犪犾 , 2013 )。该数据是由
人类学家戴维斯和加纳等人( 犇犪狏犻狊 , 犲狋犪犾. , 1941 )通过访谈、观察记录、
访客名单以及报纸记载所收集的社区妇女参与社区活动的信息(下文
简称 犇犌犌 )。该数据包括 18 名参与者, 14 次社会事件。研究者们用他
们的人类学观察直觉以及经验洞察力对这些妇女的社会网络进行了归
纳,把她们分成两个子群体,并且在每组中区分出核心成员、主要成员
和边缘成员三个层次。在他们汇报的结果中,编号 1 至编号 8 的妇女
被分到第一组,其中编号 1 、 2 、 3 、 4 作为核心成员,编号 5 、 6 、 7 为主要成
员,编号 8 为边缘成员。编 号 10 到 18 被 归为 第二 组,其中编 号 13 、
14 、 15 是核心成员,编号 11 、 12 为主要成员,编号 10 、 16 、 17 、 18 为边缘
成员。编号 9 被标识为同时属于两个组,且都作为边缘成员。
根据罚似然图模型计算结果,可以用两种方式来构建社会关系网
络矩阵。方式一为根据所估计的样本逆协方差矩阵,将非 0 元素转换
为 1 ,可得到常规的社会关系网络表示矩阵,用这种测量方式所得到的
网络为无向网络。方式二为根据样本逆协方差矩阵进一步计算偏相关
系数矩阵,作为社会关系网络的测量,其中偏相关系数可作为关系的权
重, 3 由此,可得到无向有权网络( 狌狀犱犻狉犲犮狋犲犱狏犪犾狌犲犱狀犲狋狑狅狉犽 )。在实际
应用中,上述方式所得到的关系矩阵很可能不是对称矩阵,还需进行对
称化处理。对于样本逆协方差矩阵可采用“或法则”( 犗犚狉狌犾犲 ,即矩阵
2. 该数据由戴维斯和加纳( 犇犪狏犻狊 , 犌犪狉犱狀犲狉犪狀犱犌犪狉犱狀犲狉 )收集,故简称 犇犌犌 。社会网络分析软
件 犝犆犐犖犲狋 及 犚 软件包犾犪狋犲狀狋狀犲狋 均附带了该数据,单独的数据下载及更详细的介绍见该网
站: 犺狋狋 狆 狊 :// 狀犲狋狑狅狉犽犱犪狋犪.犻犮狊.狌犮犻.犲犱狌 / 狀犲狋犱犪狋犪 / 犺狋犿犾 / 犱犪狏犻狊.犺狋犿犾 。
3. 偏相关系数矩阵中有可能出现负相关,即小于 0 的数值。对于负相关与网络关系的关联
需根据具体的研究问题予以处理。在共现数据中,负相关往往出现在两个参与者没有发生共
现行为的情形中。本文对负相关数值进行了技术处理,将其设为 0 ,表示不存在网络关系。
· 9 ·