文本相似度查询、摘要提取与词向量技术探索
1. 文本相似度查询
在文本分析中,比较两个文档的相似度是一项重要任务。通过距离函数,我们可以衡量文档和主题之间的相似性。不过,小语料库和主题词库的重叠可能会使距离看起来不如预期那么大。一个有趣的实验是使用更大的语料库生成更多主题,并对主题对的相似度进行排名,这有助于更好地说明我们所使用的距离度量。
1.1 相似度查询的实现
借助 Gensim 库,我们可以轻松实现文档相似度查询。以下是具体步骤:
1. 导入所需模块 :
from gensim import similarities
- 创建索引 :由于我们使用的是小语料库,可使用
MatrixSimilarity类创建索引。
index = similarities.MatrixSimilarity(model[corpus])
这里的索引是基于语料库的 LDA 转换所产生的相似度创建的。当然,我们也可以使用 TF - IDF 或词袋模型来创建相同的索引,但使用主题通常能获得更好的性能。同时,要确保查询与创建索引时的输入空间一致。
- 执行查询 :以
lda_bow_finance </
超级会员免费看
订阅专栏 解锁全文
4059

被折叠的 条评论
为什么被折叠?



