LDA模型，获取所有的文档-主题分布（即得到文档对于每个主题的概率分布）并保存

无喔我

已于 2022-02-24 20:45:00 修改

阅读量6.2k

点赞数 7

分类专栏： NLP 中文数据处理文章标签： python 自然语言处理

于 2022-02-19 18:15:15 首次发布

本文链接：https://blog.youkuaiyun.com/qq_43723172/article/details/123021658

版权

NLP 同时被 2 个专栏收录

4 篇文章

订阅专栏

中文数据处理

3 篇文章

订阅专栏

该代码段展示了如何使用Gensim库的LdaModel来训练主题模型，并存储每个文档的主题分布。通过lda.get_document_topics方法，可以得到每个文档中各个主题的概率分布，即使设置minimum_probability为0，确保不忽略任何主题。最终，这些分布以二维数组的形式保存到' DocumentTopicMatrix.txt '文件中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言：写小论文用到lda主题模型，需要得到所有的文档-主题分布。现有的只是为文档输出前几个概率大的主题
代码：

import numpy as np
from gensim.models import LdaModel

#训练lda模型
lda = LdaModel(corpus=corpus, id2word=dictionary, num_topics=size_lda ,minimum_probability=0)

"""start：文档-主题分布矩阵，使用DocumentTopicMatrix[][]存储"""
DocumentTopicMatrix = np.zeros([len(doc), size_lda])#存储文档-主题分布,len(doc)就是文档的总个数

#存储文档-主题分布矩阵
for id in range(len(corpus)):
    doc_top = lda.get_document_topics(corpus[id], per_word_topics=False)
    m = 0
    for x in doc_top:
        DocumentTopicMatrix[id][m] = x[1]
        m += 1

#保存文档-主题分布矩阵
np.savetxt("allData\DocumentTopicMatrix.txt",DocumentTopicMatrix)
print("文档-主题分布矩阵保存成功")
"""end：文档-主题分布矩阵，使用DocumentTopicMatrix[][]存储"""