本系列包含:
一种基于深度学习的主题建模方法:BERTopic(理论篇)
在我的博客中已经写了很多关于 主题建模 的内容,当你准备了解 BERTopic 时,默认你已经知道了 LSA、pLSA、NFM、LDA 等传统的主题建模方法。关于主题建模的前置知识我在这里不做赘述,感兴趣的同学可以看看我前几篇博客。学习 BERTopic 需要一定的机器学习基础,让我们一起开始吧!
1.总体概述
利用 BERTopic 进行主题建模可按照以下五个步骤进行:嵌入(Embeddings)、降维(Dimensionality Reduction)、聚类(Clustering)、分词(Tokenizer)、加权(Weighting scheme)。

尽管上述步骤有默认的处理方法,但 BERTopic 在一定程度上是模块化的,你可以自主选择每个步骤的处理方法,构建属于自己的主题模型。
BERTopic 是一种结合了预训练语言模型和降维技术的主题建模方法,通过嵌入、降维、聚类等步骤实现主题的发现。本文介绍了其基本原理,包括文档嵌入、降维(默认使用UMAP)、基于密度的聚类(HDBSCAN)以及词袋表示和主题表示的构建,旨在帮助读者理解如何利用 BERTopic 进行主题建模。
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



