13、高级主题建模全解析

高级主题建模全解析

1. 主题模型基础

在机器学习中,算法的结果常被称为模型。在主题建模领域,像 LDA 模型、HDP 模型或 LSI 模型,本质上都是描述语料库中文档的概率模型。以 LDA 算法为例,它通常有以下几个超参数:
- Alpha :代表文档 - 主题密度。Alpha 值越高,文档包含的主题越多;反之,文档包含的主题越少。
- Beta :代表主题 - 词密度。Beta 值高时,主题由语料库中的大量词汇组成;Beta 值低时,主题由少量词汇组成。
- 主题数量 :即我们希望建模的主题个数。

在训练过程中,为了获取更多信息,开启日志记录是很有必要的,因为 Gensim 默认不会打印训练信息。可以使用以下代码实现:

import logging
logging.basicConfig(filename='logfile.log', format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
2. 探索文档

当我们建立好主题模型后,就可以用它来分析语料库,深入了解主题模型的本质。除了知道数据集中存在哪些主题,我们还可以基于文档的主题构成对其进行聚类或分类。

下面我们来看看文档 - 主题比例。之前我们关注的是主题 - 词比例,即某些词在特定主题中出现的概率。而通过确定文档 - 主题比例,我们能清楚地看到主题是如

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值