[python]gensim学习

最新推荐文章于 2025-12-02 10:08:59 发布

原创

最新推荐文章于 2025-12-02 10:08:59 发布 · 867 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

文章介绍了Gensim库在处理文本数据时的核心概念，包括文档、语料库和向量的表示。重点讲述了词袋模型和LDA模型，用于将文本转换为向量并提取潜在主题。LDA模型通过训练语料库生成主题，并使用pyLDAvis进行可视化以评估模型效果。

参照的是官方文档

核心概念

Document:一些文本。In Gensim, a document is an object of the text sequence type (commonly known as str in Python 3).

Corpus（语料库）:Document的集合。Corpus是Document的集合。Corpus在Gensim中有两个作用:

用于训练模型的输入。在训练过程中，模型使用这个训练Corpus寻找共同的themes and topics,初始化它们的内部模型参数。

Gensim专注于无监督模型，因此不需要人工干预，比如昂贵的注释或手工标记文档。训练结束后，可以使用主题模型从新文档(训练语料库中没有看到的文档)中提取主题。

Vector（向量）:在数学上方便的Document表示。

为了推断语料库中的潜在结构，我们需要一种方法来表示我们可以数学处理的文档。一种方法是将每个文档表示为特征向量。例如，一个单一的特性可以被认为是一对问题-答案:

单词splonge在文档中出现了多少次?零。

这个文件由多少段组成?两个。

文档使用了多少种字体?五个

这个问题通常只由它的整数id表示(例如1、2和3)。然后，这个文档的表示就变成了一系列对，如(1,0.0)、(2,2.0)、(3,5.0)。这就是所谓的稠密向量，因为它包含了上述每个问题的明确答案。

如果我们事先知道所有的问题，我们可以隐式地将它们表示为(0,2,5)。这个答案序列就是我们的文档的向量(在本例中是一个三维密度向量)。出于实际目的，Gensim中只允许答案为(或可以转换为)单个浮点数的问题。

实际上，向量通常由许多零值组成。为了节省内存，Gensim省略了所有值为0.0的向量元素。因此，上面的示例变为(2,2.0)，(3,5.0)。这就是所谓的稀疏向量或词袋向量。在这个稀疏表示中，所有缺失的特性的值都可以明确地解析为0,0.0。

假设问题是相同的，我们可以比较两个不同文档的向量。例如，假设我们已知两个向量(0.0,2.0,5.0)和(0.1,

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。