16、文本相似度查询、摘要提取与词向量表示技术

文本相似度查询、摘要提取与词向量表示技术

1. 文本相似度查询

在文本分析中,判断两个文档之间的相似度是一项重要任务。小语料库以及主题词库的重叠,可能会使文档间的距离不像我们预期的那么大。一个有趣的实验是使用更大的语料库生成更多主题,并对主题对的相似度进行排序,这能更好地说明我们所使用的距离度量。

我们可以利用距离函数来比较文档和主题。实际上,我们可以比较任意两个主题分布的向量表示,这是一个非常实用的功能。若想了解更多关于使用距离度量的细节,建议运行相关的 Jupyter 笔记本示例。

现在,我们具备了比较两个文档的能力,就可以设置算法来为输入查询提取最相似的文档。具体步骤如下:
1. 对每个文档进行索引。
2. 搜索语料库与查询之间返回的最小距离值。
3. 返回具有最小距离值的文档,这些文档即为最相似的文档。

幸运的是,Gensim 提供了内置结构来完成这项文档相似度任务。我们可以使用 similarities 模块来构建这个结构:

from gensim import similarities

创建索引时, Similarity 类会将索引拆分为几个较小的子索引(分片),这些子索引基于磁盘存储。如果整个索引能放入内存(1GB 内存可处理数十万个文档),也可以直接使用 MatrixSimilarity SparseMatrixSimilarity 类。由于我们使用的是小语料库,因此可以使用

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值