Page 228 - 《社会》2018年第3期
P. 228

网络左翼的三重面相


  犐犇 所发博文反映出来的思想倾向进行人工判断,把每个 犐犇 划入三类
   左翼中的一类,以建立一个数据分析结果赖以比较的标准。然后,我们
   用监督性机器学习技术和聚类分析对每个 犐犇 进行思潮类型的归类,并
   与人工判断的结果进行对比。
       监督性机器学习的基本步骤如下(参见“研究方法”部分):对一定
   数量的博文进行人工标注,并用这些标注训练“支持向量机模型”,然后
   用训练后的模型对所有博文所表达的态度倾向进行预测,并根据预测
   结果计算每个用户在六个核心议题的表达频数而得到一个以用户为分
   析单位和以议题表达频数为变量的数据集。考虑到议题表达频数不仅
   反映了议题的相对重要性,还反映了用户的活跃度差异,我们将每个议
   题的表达频数除以用户在六个议题上表达的总频数,从而得到表达的
   相对频率,最后通过聚类分析来划分思潮群体。从聚类分析结果中提
   取上述 18 个 犐犇 的思潮类型与人工判断结果比较,从而评价所选的六
   个核心议题以及机器学习模型的有效性。 8
       在用人工标注的微博作为训练集来拟合“支持向量机模型”时,我
   们根据卡方统计量选择最优的特征词并评估模型预测的准确度。具体
   而言,我们使用五折交叉验证( 5犳狅犾犱犮狉狅狊狊狏犪犾犻犱犪狋犻狅狀 )得分作为选择标
   准,对最优的特征词的数量进行网格式搜索来确定每个指标对应的模
   型所选取的最优的特征词的数量。网格式 搜索 的范 围 设 定为 5% —
   100% ,搜索步长为 5% 。即,选择 5% 、 10% 、……、 95% 、 100% 的最优
   特征词进行交叉验证,选择验证得分的最高模型对应的特征词数量作

   为最终的最优特征词数。以“对国家的态度”这一指标为例,选取 45%
   最优特征词对应的校验效果最优,校验平均得分为 0.916 (详见表 3 )。
   确定最优特征词数量后,笔者就训练“支持向量机模型”,并使用这些模
   型来预测(未人工标注的)检验集博文在上述六个核心议题上的表达倾
   向,从而得到用于聚类分析的数据集。
       从聚类分析的结果来看,以上述六个核心议题为基础进行监督性
   机器学习的数据分析结果是非常令人惊讶的:聚类分析把 18 个 犐犇 分
   成三个类型以后,聚类结果中 犃 、 犅 、 犆 三个类型中各自包含的 犐犇 与人


   8. 在聚类分析前,笔者从 200 多个熟悉的 犐犇 中精心挑选出来在类型学意义上具有典型性的
   样本作为评估准则。

                                                          · 2 2 1 ·
   223   224   225   226   227   228   229   230   231   232   233