Page 229 - 《社会》2018年第3期
P. 229
社会· 2018 · 3
表 3 :核心议题的向量支持机模型概要
最优特征选择 五折交叉验证
核心议题 编码取值
( % ) 平均得分
对国家的态度 1= 国家主义; 0= 其他 45 0.916
对底层/弱势群体的态度 1= 草根主义; 0= 其他 60 0.892
对第一代领导人的态度 1= 崇拜; 0= 其他 95 0.965
对个人权利的态度 1= 肯定; 0= 其他 70 0.928
对西方的态度 1= 反对; 0= 其他 95 0.941
对资本的态度 1= 反对; 0= 其他 45 0.972
注:在已人工标注样本中,表达反西方态度的博文数仅为 88 条,特征选择结果
显示 5% — 45% 特征所得到的校验得分几乎相同,本文最终使用 45% 特征
估计模型。
工观察所判断的自由主义左翼、国家主义左翼、民粹主义左翼三个类型
中各自包含的 犐犇 是完全对应的(见表 4 )。 9 这意味着,监督性机器学习
加聚类分析的结果与长期观察后人工判定的结果具有高度的一致性。
因为监督性机器学习和聚类分析是以六个议题为基础的,这也充分反
映了六个议题的“核心”性质,即这些议题的确能够有效地反映不同网
络左翼思潮的关键观点。如果将校验的网络左翼 犐犇 数增加到 30 多
个,监督性机器学习加聚类分析的结果,与人工判定的结果的一致性仍
高达 84.6% ,这样的一致性程度还是能够接受的。事实上,监督性机
器学习加聚类分析所得到的结果,与人工判定的结果不一致的个案大
多属于国家主义左翼或民粹主义左翼,监督性机器学习加聚类分析的
结果有时会把实际上属于国家主义左翼的人判断为民粹主义右翼,或
把实际上属于民粹主义左翼的人判断为国家主义右翼。这一点是可以
理解的,因为这两个派别在早期思想实际上同出一源,只是随着时间的
推移而演进为两个迥然不同的派别。
9. 笔者对不同聚类数的模型进行比较,其中“肘部法则”( 犈犾犫狅狑 犕犲狋犺狅犱 )显示三聚类或者四聚
类数是一个拐点, 犌犪 狆 统计量( 犜犻犫狊犺犻狉犪狀犻 , 犠犪犾狋犺犲狉犪狀犱犎犪狊狋犻犲 , 2001 )则表明四聚类略优于三聚
类。对四聚类模型进行深入分析表明,“民粹主义左派”和“自由主义左派”保持不变,“国家主
义左派”被细分为两个略有不同的子类型,其中,规模较大的子类型更强调国家利益的优先
性,而规模略小的子类型具有更强的反西方倾向。可见,四聚类的分析结论与三聚类分析结
果一致。
· 2 2 2 ·