主题建模:LDA与NMF方法解析
1. LDA主题建模初步结果
在主题建模的过程中,我们使用LDA(Latent Dirichlet Allocation)算法对数据进行处理。初步的词 - 主题数据框结果显示,抽象主题包括巴拉克·奥巴马、经济和微软。有趣的是,描述经济的词分组中包含了与巴勒斯坦相关的内容。原始数据集中指定的四个主题都在词 - 主题数据框输出中有所体现,但并非以预期的完全不同的方式呈现。这可能存在两个问题:一是涉及经济和巴勒斯坦的主题可能未充分训练,增加主题数量或许能解决该问题;二是LDA可能无法很好地处理相关主题。
2. 可视化LDA结果
可视化是探索主题模型结果的有用工具。这里我们将查看三种不同的可视化方式,分别是基本直方图以及使用t - SNE和PCA的专业可视化。
2.1 使用pyLDAvis可视化
我们使用 pyLDAvis 库进行可视化,该库可以处理使用多种不同框架构建的主题模型,这里我们使用 sklearn 框架。此可视化工具会返回一个直方图,显示与每个主题最密切相关的单词,以及一个常用于PCA的双标图,其中每个圆圈对应一个主题。从双标图中,我们可以通过圆圈的面积了解每个主题在整个语料库中的流行程度,通过圆圈的接近程度了解主题之间的相似性。理想情况下,圆圈应在图中分散分布且大小适中,即主题应是不同的且在语料库中一致出现。
操作步骤如下:
lda_plot = pyLDAvis.sklearn.prepare(lda, clean_vec1, vectori
超级会员免费看
订阅专栏 解锁全文
5474

被折叠的 条评论
为什么被折叠?



