Page 229 - 《社会》2018年第3期

P. 229

社会· ２０１８ · ３

表３：核心议题的向量支持机模型概要
最优特征选择五折交叉验证
核心议题编码取值
（％）平均得分
对国家的态度１＝国家主义；０＝其他４５０．９１６
对底层／弱势群体的态度１＝草根主义；０＝其他６００．８９２
对第一代领导人的态度１＝崇拜；０＝其他９５０．９６５
对个人权利的态度１＝肯定；０＝其他７００．９２８
对西方的态度１＝反对；０＝其他９５０．９４１
对资本的态度１＝反对；０＝其他４５０．９７２
注：在已人工标注样本中，表达反西方态度的博文数仅为８８条，特征选择结果
显示５％ — ４５％特征所得到的校验得分几乎相同，本文最终使用４５％特征
估计模型。

工观察所判断的自由主义左翼、国家主义左翼、民粹主义左翼三个类型
中各自包含的犐犇是完全对应的（见表４）。９这意味着，监督性机器学习
加聚类分析的结果与长期观察后人工判定的结果具有高度的一致性。
因为监督性机器学习和聚类分析是以六个议题为基础的，这也充分反
映了六个议题的“核心”性质，即这些议题的确能够有效地反映不同网
络左翼思潮的关键观点。如果将校验的网络左翼犐犇数增加到３０多
个，监督性机器学习加聚类分析的结果，与人工判定的结果的一致性仍
高达８４．６％，这样的一致性程度还是能够接受的。事实上，监督性机
器学习加聚类分析所得到的结果，与人工判定的结果不一致的个案大
多属于国家主义左翼或民粹主义左翼，监督性机器学习加聚类分析的
结果有时会把实际上属于国家主义左翼的人判断为民粹主义右翼，或
把实际上属于民粹主义左翼的人判断为国家主义右翼。这一点是可以
理解的，因为这两个派别在早期思想实际上同出一源，只是随着时间的
推移而演进为两个迥然不同的派别。

９．笔者对不同聚类数的模型进行比较，其中“肘部法则”（犈犾犫狅狑犕犲狋犺狅犱）显示三聚类或者四聚
类数是一个拐点，犌犪狆统计量（犜犻犫狊犺犻狉犪狀犻，犠犪犾狋犺犲狉犪狀犱犎犪狊狋犻犲，２００１）则表明四聚类略优于三聚
类。对四聚类模型进行深入分析表明，“民粹主义左派”和“自由主义左派”保持不变，“国家主
义左派”被细分为两个略有不同的子类型，其中，规模较大的子类型更强调国家利益的优先
性，而规模略小的子类型具有更强的反西方倾向。可见，四聚类的分析结论与三聚类分析结
果一致。

· ２２２ ·

224 225 226 227 228 229 230 231 232 233 234