Page 41 - 《社会》2017年第2期
P. 41
社会· 2017 · 2
文数逐渐下降,这一趋势可能与微博整体活跃度的下降有关。同时,
2014 年 2 月至 3 月博文数下降也可能受数据收集结束时点的影响,因
此下文的分析不包含这两个月的数据。
(一)话题模型的选择
为了确定话题数,笔者拟合了话题数为 2 至 40 的一系列模型,通过
计算和比较各话题的混乱度来初步筛选备选模型。计算结果显示(见图
2 ),随着话题数的增加,模型的混乱度持续下降,这与现有研究基本一致
( 犑犪犮狅犫犻 , 犲狋犪犾. , 2016 )。当话题数大于或等于 12 时,混乱度的变化幅度相
对较小。结合混乱度的变化趋势,笔者进一步计算了话题数从 4 至 30 的
一系列模型的一致性指标,结果表明话题数为 7 、 9 、 13 的模型具有较高
的一致性。综合混乱度、一致性指标和这 3 个模型的可解读性,笔者决
定采取话题数为 13 的模型作为分析结果进行汇报。 5
图 2 :话题模型比较
(二)劳工社群关注什么议题?
使用话题模型分析含有特定关键词的文本可能会揭示出含有该关
键词但实际上谈论无关话题的文本,这一特点应该被看作话题模型的
优点( 犑犪犮狅犫犻 , 犲狋犪犾. , 2016 )。考虑到中国非政府组织常常在微博上发
布一些与组织目标无关的文字来吸引用户( 犣犺狅狌犪狀犱犘犪狀 , 2016 ),而本
文的主要研究目标是理解劳工关注社群,并不是劳工组织的微博的一
5. 感兴趣的读者可向作者索取话题数为 7 和 9 的模型结果。
· 3 4 ·