Page 59 - 《党政研究》2024年么6期
P. 59
度能够按时间顺序描述各主题的演化过程,从而帮助追踪偏好主题,具有实际意义 。
〔 25〕
(三)数据来源与呈现
自 1983 年以来颁布的 8 个全国干部教育培训规划,涵盖干部教育培训工作的各个方
面,是推动相关事业不断向前发展的指导依据,同时也蕴含着我国干部教育培训实践的重
要历史节点。全国干部教育培训规划的基本信息如表 1 所示。
表 1 全国干部教育培训规划基本信息
序号 发布部门 发布时间 政策文件
0 中共中央组织部 1983. 10 《全国干部培训规划要点》
1 中共中央组织部 1991. 12 《 1991 - 1995 年全国干部培训规划要点》
中共中央 《 1996 - 2000 年全国干部教育培训规划》
2 1996. 05
3 中共中央 2001. 01 《 2001 - 2005 年全国干部教育培训规划》
4 中共中央 2007. 01 《 2006 - 2010 年全国干部教育培训规划》
5 中共中央 2013. 09 《 2013 - 2017 年全国干部教育培训规划》
中共中央 《 2018 - 2022 年全国干部教育培训规划》
6 2018. 11
中共中央 《全国干部教育培训规划( 2023 - 2027 年)》
7 2023. 10
(四)数据预处理
对 8 个政策文本的预处理包括分词、停用词表和词典的调整。首先,采用 jieba 分词
工具进行分词,处理后的文本成为词组的集合,便于模型输入。其次,政策文本中仍包括
与主题并不相关或没有实际意义的词语,需利用停用词表删除,以提升模型的可信度与可
解释性。最后,由于 jieba 分词基于通用语言训练并不能识别部分专业名词,需要在词典
中补充该部分专业名词,以进一步优化主题建模结果。
三、LDA 主题建模和数据结果
(一)主题数量确定
主题数量会对模型结果的可信度产生影响,本文将困惑度作为确定主题数量的标准。
不同主题数量对应的困惑度分布如图 1 所示,横轴和纵轴分别代表主题数量和困惑度。当
主题数量为 5 时,LDA 主题模型的困惑度最低。此外,通过 pyLDAvis 可视化结果呈现,
采用 5 个主题进行分析时,主题之间基本不存在重合,如图 2 所示。其中,横轴 pc1 表示
特征值最大的特征向量,纵轴 pc2 表示特征值次大的特征向量。
图 1 不同主题数的困惑度分布 图 2 pyLDAvis可视化结果
8 · ·
5