Page 59 - 《党政研究》2024年么6期
P. 59

度能够按时间顺序描述各主题的演化过程,从而帮助追踪偏好主题,具有实际意义 。
                                                                                                    〔 25〕
                  (三)数据来源与呈现
                  自 1983 年以来颁布的 8 个全国干部教育培训规划,涵盖干部教育培训工作的各个方
             面,是推动相关事业不断向前发展的指导依据,同时也蕴含着我国干部教育培训实践的重
             要历史节点。全国干部教育培训规划的基本信息如表 1 所示。
                                           表 1  全国干部教育培训规划基本信息
                序号           发布部门               发布时间                           政策文件


                 0        中共中央组织部               1983. 10               《全国干部培训规划要点》
                 1        中共中央组织部               1991. 12         《 1991 - 1995 年全国干部培训规划要点》
                             中共中央                                《 1996 - 2000 年全国干部教育培训规划》
                 2                              1996. 05
                 3           中共中央               2001. 01         《 2001 - 2005 年全国干部教育培训规划》
                 4           中共中央               2007. 01         《 2006 - 2010 年全国干部教育培训规划》
                 5           中共中央               2013. 09         《 2013 - 2017 年全国干部教育培训规划》
                             中共中央                                《 2018 - 2022 年全国干部教育培训规划》
                 6                              2018. 11
                             中共中央                               《全国干部教育培训规划( 2023 - 2027 年)》
                 7                              2023. 10
                 (四)数据预处理
                  对 8 个政策文本的预处理包括分词、停用词表和词典的调整。首先,采用 jieba 分词
             工具进行分词,处理后的文本成为词组的集合,便于模型输入。其次,政策文本中仍包括
             与主题并不相关或没有实际意义的词语,需利用停用词表删除,以提升模型的可信度与可
             解释性。最后,由于 jieba 分词基于通用语言训练并不能识别部分专业名词,需要在词典
             中补充该部分专业名词,以进一步优化主题建模结果。

                 三、LDA 主题建模和数据结果

                  (一)主题数量确定
                  主题数量会对模型结果的可信度产生影响,本文将困惑度作为确定主题数量的标准。
             不同主题数量对应的困惑度分布如图 1 所示,横轴和纵轴分别代表主题数量和困惑度。当
             主题数量为 5 时,LDA 主题模型的困惑度最低。此外,通过 pyLDAvis 可视化结果呈现,
             采用 5 个主题进行分析时,主题之间基本不存在重合,如图 2 所示。其中,横轴 pc1 表示
             特征值最大的特征向量,纵轴 pc2 表示特征值次大的特征向量。






















                         图 1  不同主题数的困惑度分布                    图 2  pyLDAvis可视化结果
                  8 ·  ·
                 5
   54   55   56   57   58   59   60   61   62   63   64