Page 229 - 《社会》2018年第3期
P. 229

社会· 2018 · 3

                    表 3 :核心议题的向量支持机模型概要
                                         最优特征选择        五折交叉验证
   核心议题                    编码取值
                                            ( % )        平均得分
   对国家的态度             1= 国家主义; 0= 其他         45           0.916
   对底层/弱势群体的态度        1= 草根主义; 0= 其他         60           0.892
   对第一代领导人的态度         1= 崇拜; 0= 其他           95           0.965
   对个人权利的态度           1= 肯定; 0= 其他           70           0.928
   对西方的态度             1= 反对; 0= 其他           95           0.941
   对资本的态度             1= 反对; 0= 其他           45           0.972
     注:在已人工标注样本中,表达反西方态度的博文数仅为 88 条,特征选择结果
        显示 5% — 45% 特征所得到的校验得分几乎相同,本文最终使用 45% 特征
        估计模型。

   工观察所判断的自由主义左翼、国家主义左翼、民粹主义左翼三个类型
   中各自包含的 犐犇 是完全对应的(见表 4 )。 9 这意味着,监督性机器学习
   加聚类分析的结果与长期观察后人工判定的结果具有高度的一致性。
   因为监督性机器学习和聚类分析是以六个议题为基础的,这也充分反
   映了六个议题的“核心”性质,即这些议题的确能够有效地反映不同网
   络左翼思潮的关键观点。如果将校验的网络左翼 犐犇 数增加到 30 多
   个,监督性机器学习加聚类分析的结果,与人工判定的结果的一致性仍
   高达 84.6% ,这样的一致性程度还是能够接受的。事实上,监督性机
   器学习加聚类分析所得到的结果,与人工判定的结果不一致的个案大
   多属于国家主义左翼或民粹主义左翼,监督性机器学习加聚类分析的
   结果有时会把实际上属于国家主义左翼的人判断为民粹主义右翼,或
   把实际上属于民粹主义左翼的人判断为国家主义右翼。这一点是可以
   理解的,因为这两个派别在早期思想实际上同出一源,只是随着时间的
   推移而演进为两个迥然不同的派别。


   9. 笔者对不同聚类数的模型进行比较,其中“肘部法则”( 犈犾犫狅狑 犕犲狋犺狅犱 )显示三聚类或者四聚
   类数是一个拐点, 犌犪 狆 统计量( 犜犻犫狊犺犻狉犪狀犻 , 犠犪犾狋犺犲狉犪狀犱犎犪狊狋犻犲 , 2001 )则表明四聚类略优于三聚
   类。对四聚类模型进行深入分析表明,“民粹主义左派”和“自由主义左派”保持不变,“国家主
   义左派”被细分为两个略有不同的子类型,其中,规模较大的子类型更强调国家利益的优先
   性,而规模略小的子类型具有更强的反西方倾向。可见,四聚类的分析结论与三聚类分析结
   果一致。

    · 2 2 2 ·
   224   225   226   227   228   229   230   231   232   233   234