高级主题建模全解析
1. 主题模型基础
在机器学习中,算法的结果常被称为模型。在主题建模领域,像 LDA 模型、HDP 模型或 LSI 模型,本质上都是描述语料库中文档的概率模型。以 LDA 算法为例,它通常有以下几个超参数:
- Alpha :代表文档 - 主题密度。Alpha 值越高,文档包含的主题越多;反之,文档包含的主题越少。
- Beta :代表主题 - 词密度。Beta 值高时,主题由语料库中的大量词汇组成;Beta 值低时,主题由少量词汇组成。
- 主题数量 :即我们希望建模的主题个数。
在训练过程中,为了获取更多信息,开启日志记录是很有必要的,因为 Gensim 默认不会打印训练信息。可以使用以下代码实现:
import logging
logging.basicConfig(filename='logfile.log', format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
2. 探索文档
当我们建立好主题模型后,就可以用它来分析语料库,深入了解主题模型的本质。除了知道数据集中存在哪些主题,我们还可以基于文档的主题构成对其进行聚类或分类。
下面我们来看看文档 - 主题比例。之前我们关注的是主题 - 词比例,即某些词在特定主题中出现的概率。而通过确定文档 - 主题比例,我们能清楚地看到主题是如
超级会员免费看
订阅专栏 解锁全文
7万+

被折叠的 条评论
为什么被折叠?



