Top2Vec 是一种用于 主题建模 和 语义搜索 的算法。它自动检测文本中出现的主题,并生成联合嵌入的主题、文档和词向量。
算法基于的假设:许多语义相似的文档都可以由一个潜在的主题表示。首先,创建文档和词向量的联合嵌入。一旦文档和单词被嵌入到向量空间中,算法的目标就是找到密集的文档簇,然后找到是哪些单词将这些文档聚集在一起。每个密集区域即为一个主题,将文档聚拢到密集区域的词就是主题词。
1.联合嵌入
使用 Doc2Vec 或 Universal Sentence Encoder 或 BERT Sentence Transformer 创建文档和词向量的联合嵌入。
文档将被放置在靠近其他类似文档和靠近最有区别的词的地方。

Top2Vec是一种主题建模和语义搜索的算法,通过联合嵌入、降维、聚类和计算质心等步骤,自动检测文本主题并生成向量表示。该算法利用Doc2Vec等技术创建文档和词的联合嵌入,通过UMAP降维找到密集区域,再用HDBSCAN进行聚类,计算出主题向量,并根据词向量排序确定主题词。
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



