Page 41 - 《社会》2017年第2期
P. 41

社会· 2017 · 2

   文数逐渐下降,这一趋势可能与微博整体活跃度的下降有关。同时,
   2014 年 2 月至 3 月博文数下降也可能受数据收集结束时点的影响,因
   此下文的分析不包含这两个月的数据。
       (一)话题模型的选择
       为了确定话题数,笔者拟合了话题数为 2 至 40 的一系列模型,通过
   计算和比较各话题的混乱度来初步筛选备选模型。计算结果显示(见图
   2 ),随着话题数的增加,模型的混乱度持续下降,这与现有研究基本一致
   ( 犑犪犮狅犫犻 , 犲狋犪犾. , 2016 )。当话题数大于或等于 12 时,混乱度的变化幅度相
   对较小。结合混乱度的变化趋势,笔者进一步计算了话题数从 4 至 30 的
   一系列模型的一致性指标,结果表明话题数为 7 、 9 、 13 的模型具有较高
   的一致性。综合混乱度、一致性指标和这 3 个模型的可解读性,笔者决
   定采取话题数为 13 的模型作为分析结果进行汇报。 5
























                           图 2 :话题模型比较
       (二)劳工社群关注什么议题?
       使用话题模型分析含有特定关键词的文本可能会揭示出含有该关
   键词但实际上谈论无关话题的文本,这一特点应该被看作话题模型的
   优点( 犑犪犮狅犫犻 , 犲狋犪犾. , 2016 )。考虑到中国非政府组织常常在微博上发
   布一些与组织目标无关的文字来吸引用户( 犣犺狅狌犪狀犱犘犪狀 , 2016 ),而本
   文的主要研究目标是理解劳工关注社群,并不是劳工组织的微博的一


   5. 感兴趣的读者可向作者索取话题数为 7 和 9 的模型结果。
    · 3 4 ·
   36   37   38   39   40   41   42   43   44   45   46