基于连贯性分数(Coherence Score)的主题建模评估
1.主题连贯性分数
主题连贯性分数(Coherence Score)是一种客观的衡量标准,它基于语言学的分布假设:具有相似含义的词往往出现在相似的上下文中。 如果所有或大部分单词都密切相关,则主题被认为是连贯的。
推荐阅读:Full-Text or Abstract ? Examining Topic Coherence Scores Using Latent Dirichlet Allocation
2.计算 LDA 模型的 Coherence Score
2.1 导入包
import pandas as pd
import numpy as np
from gensim
本文探讨了主题连贯性分数(Coherence Score)作为评估主题建模的标准,通过计算LDA和GSDMM模型的Coherence Score来比较其效果。LDA模型的计算较为直接,而GSDMM适用于短文本聚类,其优点包括自动推断聚类数、快速收敛和处理高维稀疏文本的能力。
订阅专栏 解锁全文
25





