[python]gensim学习

文章介绍了Gensim库在处理文本数据时的核心概念,包括文档、语料库和向量的表示。重点讲述了词袋模型和LDA模型,用于将文本转换为向量并提取潜在主题。LDA模型通过训练语料库生成主题,并使用pyLDAvis进行可视化以评估模型效果。

参照的是官方文档

核心概念

Document:一些文本。In Gensim, a document is an object of the text sequence type (commonly known as str in Python 3).

Corpus(语料库):Document的集合。Corpus是Document的集合。Corpus在Gensim中有两个作用:

用于训练模型的输入。在训练过程中,模型使用这个训练Corpus寻找共同的themes and topics,初始化它们的内部模型参数。

Gensim专注于无监督模型,因此不需要人工干预,比如昂贵的注释或手工标记文档。训练结束后,可以使用主题模型从新文档(训练语料库中没有看到的文档)中提取主题。

Vector(向量):在数学上方便的Document表示。

为了推断语料库中的潜在结构,我们需要一种方法来表示我们可以数学处理的文档。一种方法是将每个文档表示为特征向量。例如,一个单一的特性可以被认为是一对问题-答案:

单词splonge在文档中出现了多少次?零。

这个文件由多少段组成?两个。

文档使用了多少种字体?五个

这个问题通常只由它的整数id表示(例如1、2和3)。然后,这个文档的表示就变成了一系列对,如(1,0.0)、(2,2.0)、(3,5.0)。这就是所谓的稠密向量,因为它包含了上述每个问题的明确答案。

如果我们事先知道所有的问题,我们可以隐式地将它们表示为(0,2,5)。这个答案序列就是我们的文档的向量(在本例中是一个三维密度向量)。出于实际目的,Gensim中只允许答案为(或可以转换为)单个浮点数的问题。

实际上,向量通常由许多零值组成。为了节省内存,Gensim省略了所有值为0.0的向量元素。因此,上面的示例变为(2,2.0),(3,5.0)。这就是所谓的稀疏向量或词袋向量。在这个稀疏表示中,所有缺失的特性的值都可以明确地解析为0,0.0。

假设问题是相同的,我们可以比较两个不同文档的向量。例如,假设我们已知两个向量(0.0,2.0,5.0)和(0.1,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值