主题建模:从LDA到NMF的探索
1. 潜在狄利克雷分配(LDA)初步结果
在进行主题建模时,使用LDA得到的词 - 主题数据框结果显示,抽象主题有巴拉克·奥巴马、经济和微软。有趣的是,描述经济的词组中包含了与巴勒斯坦相关的内容。原始数据集中指定的四个主题都在词 - 主题数据框输出中有所体现,但并非如预期那样完全区分开。这可能面临两个问题:
- 提及经济和巴勒斯坦的主题可能未充分训练,增加主题数量或许能解决此问题。
- LDA可能无法很好地处理相关主题。
2. 可视化LDA结果
可视化是探索主题模型结果的有用工具,下面将介绍三种不同的可视化方法:基础直方图、使用t - SNE和PCA的专业可视化。
2.1 使用pyLDAvis库可视化
使用 pyLDAvis 库创建可视化,该库可以处理使用不同框架构建的主题模型,这里使用 sklearn 框架。此可视化工具会返回一个直方图,显示与每个主题最密切相关的单词,以及一个常用于PCA的双标图,其中每个圆圈对应一个主题。从双标图中,我们可以通过圆圈的面积了解每个主题在整个语料库中的普遍程度,通过圆圈的接近程度了解主题之间的相似性。理想情况是圆圈在图中分散且大小合理,即主题应相互区分且在语料库中一致出现。
操作步骤如下:
lda_plot = pyLDAvis.sklearn.prepare(lda, clean_vec1, vectorizer1, R=10)
pyLDAvis.display(lda_plot)
LDA与NMF主题建模详解
超级会员免费看
订阅专栏 解锁全文
988

被折叠的 条评论
为什么被折叠?



