Page 39 - 《社会》2017年第2期
P. 39
社会· 2017 · 2
题概率来 描 述,因 此 话 题 模 型 是 混 合 隶 属 ( 犿犻狓犲犱 犿犲犿犫犲狉狊犺犻 狆 )模 型
( 犌狉犻犿犿犲狉犪狀犱犛狋犲狑犪狉狋 , 2013 )。考虑到一条博文经常涉及两个或多个
话题,混合隶属意味着研究者无需武断地做出是或否的二分决定,因此
能更准确地反映文本的特征。研究者通过拟合好的话题模型估算出单
个文本谈论各话题的概率,进而选择特定话题对应的典型文本,并据此
评估模型的有效性。
拟合话题模型的步骤如下:首先,研究者对文本进行预处理,主要
的工作是分词与特征词选择。最常见的特征词选择是删除停用词。结
合 前 期 的 数 据 处 理 经 验 和 他 人 的 研 究 可 知,剔 除 命 名 实 体 词
( 犅狌狉狊犮犺犲狉 , 犲狋犪犾. , 2016 )和微博用户名有助于识别文本中的议题(否则
舆论事件会被优先识别出来),因此笔者在文本预处理过程中过滤了这
两类词语。接下来,研究者需要确定话题的个数并拟合话题模型。现
狆
有的方法论文献建议结合混乱度( 犲狉 狆 犾犲狓犻狋 狔 )和一致性( 犮狅犺犲狉犲狀犮犲 )指
标以及话题模型的可解读性来确定话题数。其中较小的混乱度指标代
表一个更优的模型,但该统计指标往往会选择一个过于复杂的模型;较
大的一致性指标代表一个更优的模型,其中“ 犮 _ 狏犮狅犺犲狉犲狀犮犲 ”指标与人
工评判之间具有较高的相关性( 犚犱犲狉 , 犲狋犪犾. , 2015 )。最后,研究者对
话题模型的有效性进行人工评估,并对有效度的话题进行后续分析。
此时,研究者还需要结合研究目标来决定话题的精细程度:研究特定行
动者的框架化策略时,需要较为精细的话题;而考察集体性议题定义
时,话题则无需过于精细( 犖狅狑犾犻狀 , 2015 )。
在完成话题模型分析后,作者根据博文所记录的提及关系(直接 @
用户)来建构互动关系网。具体步骤如下:若用户 犃 在发布或转发微
博时直接 @ 用户 犅 ,则认为互动关系网中存在一个由 犃 指向 犅 的网络
关系。值得一提的是,这里仅计算直接的提及关系,不包括转发关系。
由于每个用户在不同的博文中可以多次 @ 其他用户,提及的次数则被
定义为用户间互动关系的权重。根据上述规则处理博文后,本研究得
到一个包括 14730 位用户、 41202 对关系的有向加权社会网。
由于低频互动关系可能反映随机的或不稳定的社群归属,本研究
仅保留高频互动关系。为了选择一个有意义的分界点,作者分析了博
文的时序分布。结果显示,有 21 个月的博文数超过 1000 条,若将平
均每月至少互动一次定义为持续而稳定的互动关系,则可以使用 21 作
· 3 2 ·