20、文本检索中的查询扩展与文档扩展技术解析

文本检索中的查询扩展与文档扩展技术解析

1. 文档扩展的实践与考量

在文本检索场景中,文档扩展是一个重要的环节。通常假设语料库大多是静态的,并且会提前提供给系统。从概念上讲,文档扩展可以视为系统文档预处理流程中的一个步骤,与结构解析(如 HTML 解析)、去除样板和无用内容等操作类似。

文档扩展在大多数情况下具有高度的并行性,即可以独立地对每个文档进行模型推理。这意味着推理过程可以分布在大型集群上进行。即使是计算成本高、推理延迟长的模型,在资源充足的情况下也具有可行性。资源分配需要根据具体组织的成本效益分析来决定。

在生产系统中,常见的设计是每晚更新语料库(如添加、修改或删除文本),系统仅处理语料库中发生变化的部分,例如仅对新的和修改过的内容进行文档扩展。之后,需要更新底层索引并重新部署到生产环境。

在搜索时,由于扩展后的文本变长,第一阶段的检索延迟可能会增加,但与重排序器的神经推理需求相比,这种差异通常较小。

2. 伪相关反馈与上下文嵌入:CEQE 模型

伪相关反馈(有时也称为盲相关反馈)是信息检索中最古老的检索后查询扩展技术之一,可追溯到 20 世纪 70 年代。它源于更古老的相关反馈思想,其目标是利用用户输入来优化查询,使其更好地捕捉用户对相关内容的需求。

在典型的设置中,系统先进行初始检索,然后向用户展示一个(通常较短的)文本列表,用户对这些文本的相关性进行评估,系统再根据这些判断来优化用户的查询。例如,Rocchio 算法在向量空间模型中进行操作,从查询的表示开始,系统添加相关文档的聚合表示并减去非相关文档的聚合表示,使扩展后的查询更接近相关文档,而远离非相关文档。

然而,相关反

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值