机器学习之学术论文聚类实战：从文本预处理到主题挖掘

YBAdvanceFu

已于 2025-07-28 18:30:30 修改

阅读量446

点赞数 11

CC 4.0 BY-SA版权

文章标签：聚类机器学习人工智能 nlp 自然语言处理 ai 算法

于 2025-07-28 12:18:07 首次发布

本文链接：https://blog.youkuaiyun.com/YBAdvanceFu/article/details/149712312

在学术研究中，面对海量论文，快速梳理主题分布是提升效率的关键。本文以某国际学术会议的数百余篇论文为研究对象，手把手带你实现文本聚类全流程，对比不同算法效果，分享实操中的优化技巧，适合 NLP 初学者入门参考。

随着学术论文数量逐年增长，手动筛选和归类已难以满足需求。无监督聚类算法能自动将主题相似的论文聚为一类，帮助研究者快速定位核心方向。

核心目标：

实验数据来源于公开数据集，包含约 600 篇会议论文的标题、摘要、关键词等字段。预处理步骤如下：

预处理是聚类效果的基础，直接影响后续特征质量。

关键技巧：用[TITLE_END]等分隔符避免不同字段的语义混淆，手动维护轻量停用词表可减少外部依赖，适合离线环境。

将文本转化为数值特征是聚类的前提，这里采用 TF-IDF（词频 - 逆文档频率）方法，突出主题词的重要性：

扩展：

适合主题数量较明确的场景，需通过 “肘部法” 确定最优簇数k：

基于密度的聚类算法，适合发现小众主题或非凸形状的簇：

参数调优：eps过小会导致多数样本被标记为噪声（-1），过大则所有样本聚为一类，建议从 0.5 开始逐步调整。

高维特征无法直接可视化，通过降维技术将其转化为 2D 散点图，直观展示聚类效果：

空簇问题：K-Means 当k过大（如 15）时会出现空簇，通过肘部法合理设置k（如 10）可解决；
负号显示异常：绘图时出现 “Glyph 8722 missing” 警告，添加plt.rcParams['axes.unicode_minus'] = False即可；
DBSCAN 全为噪声：eps参数过小导致，逐步增大eps（如从 0.3→0.5）可生成有效簇；
文本预处理不彻底：未过滤标点或停用词会导致特征冗余，需用正则分词 + 手动停用词表优化。

本次实验完整实现了文本聚类的全流程，对比 K-Means 与 DBSCAN 发现：

最后，想和大家分享一个好用英语学习网站，www.b-techuniverseeducation.com里面有语言学习板块，现在可以免费学习。