文本相似度查询、摘要提取与词向量表示技术
1. 文本相似度查询
在文本分析中,判断两个文档之间的相似度是一项重要任务。小语料库以及主题词库的重叠,可能会使文档间的距离不像我们预期的那么大。一个有趣的实验是使用更大的语料库生成更多主题,并对主题对的相似度进行排序,这能更好地说明我们所使用的距离度量。
我们可以利用距离函数来比较文档和主题。实际上,我们可以比较任意两个主题分布的向量表示,这是一个非常实用的功能。若想了解更多关于使用距离度量的细节,建议运行相关的 Jupyter 笔记本示例。
现在,我们具备了比较两个文档的能力,就可以设置算法来为输入查询提取最相似的文档。具体步骤如下:
1. 对每个文档进行索引。
2. 搜索语料库与查询之间返回的最小距离值。
3. 返回具有最小距离值的文档,这些文档即为最相似的文档。
幸运的是,Gensim 提供了内置结构来完成这项文档相似度任务。我们可以使用 similarities 模块来构建这个结构:
from gensim import similarities
创建索引时, Similarity 类会将索引拆分为几个较小的子索引(分片),这些子索引基于磁盘存储。如果整个索引能放入内存(1GB 内存可处理数十万个文档),也可以直接使用 MatrixSimilarity 或 SparseMatrixSimilarity 类。由于我们使用的是小语料库,因此可以使用
超级会员免费看
订阅专栏 解锁全文
4040

被折叠的 条评论
为什么被折叠?



