主题连贯度(Topic Coherence)详解
在大多数关于主题建模的文章中,常用主题连贯度(Topic Coherence
,主题一致性)或主题连贯度指标(Topic Coherence Metrics
)来表示整体主题的可解释性,用于评估主题的质量。
但是,该指标到底指什么?它是如何衡量主题的可解释性的?该值是否越大越好?本文将就这些问题做出解答。
1.主题建模
主题建模将文本数据集分解为主题和单词这两个分布来进行解释。一般基于以下假设:
- 一个文档由几个主题组成
- 一个主题由一组单词组成
因此,可以将主题建模算法理解为一种数学上的统计模型,用于推断哪些主题更能代表数据。
简单来说,主题可以被描述为单词的集合,例如 [ball
, cat
, house
] 和 [airplane
, clouds
]。但实际上,算法要做的是为我们词汇表中的每个单词分配一个给定主题的参与值。具有高参与值的单词可以被视为该主题的代表。