gensim库_LDA主题模型困惑度Perplexity计算

最新推荐文章于 2025-10-14 23:11:49 发布

原创

最新推荐文章于 2025-10-14 23:11:49 发布 · 8.5k 阅读

33 ·

CC 4.0 BY-SA版权

文章标签：

#python

文章介绍了如何利用gensim库计算LDA主题模型的困惑度。困惑度是评估概率模型的一种方法，文中提到虽然gensim源码中已有计算过程，但需要通过修改源代码来显示结果。

LDA主题模型困惑度Perplexity计算

导入gensim库
计算困惑度

perplexity是一种信息理论的测量方法，b的perplexity值定义为基于b的熵的能量（b可以是一个概率分布，或者概率模型），通常用于概率模型的比较。
该部分内容可参考Perplexity（困惑度）、python下进行lda主题挖掘(三)——计算困惑度perplexity、python gensim里的log_perplexity得出的结果是困惑度吗？
可搜索到的资料都通过编程实现了困惑度的计算，不过gensim库其实自带了perplexity的计算模块，稍作修改即可返回模型困惑度。
对于困惑度的理解还十分有限，有待日后更新。

导入gensim库

from gensim.models import LdaModel

首先，导入gensim库的LdaModel模块。
然后，查看gensim\models\ldamodel.py源码。搜索perplexity。

    def log_perplexity(self, chunk, total_docs=None):
        """Calculate and return per-word likelihood bound, using a chunk of documents as evaluation corpus.

        Also output the calculated statistics, including the perplexity=2^(-bound), to log at INF