主题连贯度(Topic Coherence)详解
在大多数关于主题建模的文章中,常用主题连贯度(Topic Coherence,主题一致性)或主题连贯度指标(Topic Coherence Metrics)来表示整体主题的可解释性,用于评估主题的质量。
但是,该指标到底指什么?它是如何衡量主题的可解释性的?该值是否越大越好?本文将就这些问题做出解答。
1.主题建模
主题建模将文本数据集分解为主题和单词这两个分布来进行解释。一般基于以下假设:
- 一个文档由几个主题组成
- 一个主题由一组单词组成
因此,可以将主题建模算法理解为一种数学上的统计模型,用于推断哪些主题更能代表数据。
简单来说,主题可以被描述为单词的集合,例如 [ball, cat, house] 和 [airplane, clouds]。但实际上,算法要做的是为我们词汇表中的每个单词分配一个给定主题的参与值。具有高参与值的单词可以被视为该主题的代表。

2.评估主题
主题建模算法基于数学和统计学。但站在人的视角,数学上最优的主题并不一定是最好的主题。
例如,根据
本文详细介绍了主题建模中主题连贯度的概念,它用于评估主题的可解释性和质量。主题连贯度计算涉及分割、概率计算、确认度量和聚合等步骤,Gensim提供了多种计算方法。实践中,可通过Gensim库计算主题连贯性,以评估主题模型的效果。
订阅专栏 解锁全文
4871

被折叠的 条评论
为什么被折叠?



