参照的是官方文档
核心概念
Document:一些文本。In Gensim, a document is an object of the text sequence type (commonly known as str in Python 3).
Corpus(语料库):Document的集合。Corpus是Document的集合。Corpus在Gensim中有两个作用:
用于训练模型的输入。在训练过程中,模型使用这个训练Corpus寻找共同的themes and topics,初始化它们的内部模型参数。
Gensim专注于无监督模型,因此不需要人工干预,比如昂贵的注释或手工标记文档。训练结束后,可以使用主题模型从新文档(训练语料库中没有看到的文档)中提取主题。
Vector(向量):在数学上方便的Document表示。
为了推断语料库中的潜在结构,我们需要一种方法来表示我们可以数学处理的文档。一种方法是将每个文档表示为特征向量。例如,一个单一的特性可以被认为是一对问题-答案:
单词splonge在文档中出现了多少次?零。
这个文件由多少段组成?两个。
文档使用了多少种字体?五个
这个问题通常只由它的整数id表示(例如1、2和3)。然后,这个文档的表示就变成了一系列对,如(1,0.0)、(2,2.0)、(3,5.0)。这就是所谓的稠密向量,因为它包含了上述每个问题的明确答案。
如果我们事先知道所有的问题,我们可以隐式地将它们表示为(0,2,5)。这个答案序列就是我们的文档的向量(在本例中是一个三维密度向量)。出于实际目的,Gensim中只允许答案为(或可以转换为)单个浮点数的问题。
实际上,向量通常由许多零值组成。为了节省内存,Gensim省略了所有值为0.0的向量元素。因此,上面的示例变为(2,2.0),(3,5.0)。这就是所谓的稀疏向量或词袋向量。在这个稀疏表示中,所有缺失的特性的值都可以明确地解析为0,0.0。
假设问题是相同的,我们可以比较两个不同文档的向量。例如,假设我们已知两个向量(0.0,2.0,5.0)和(0.1,

文章介绍了Gensim库在处理文本数据时的核心概念,包括文档、语料库和向量的表示。重点讲述了词袋模型和LDA模型,用于将文本转换为向量并提取潜在主题。LDA模型通过训练语料库生成主题,并使用pyLDAvis进行可视化以评估模型效果。
最低0.47元/天 解锁文章
882

被折叠的 条评论
为什么被折叠?



