Rocchio算法

Rocchio算法源于1970年代的SMART IR系统,是一种相关反馈方法,通过调整查询向量来优化信息检索。该算法假设用户能判断相关文档,将相关文档集与不相关文档集的质心向量差作为新的查询向量,以提高检索的精确性和召回率。实际应用中,通常只采用正反馈,并通过调整权重参数α、β和γ来平衡原始查询和反馈信息的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、引子


查询扩展(Query Expansion)是信息检索领域的一个重要话题。一方面,用户本身可能会出错,他会输入一些错别字,比如把“冯小刚”,错写成“冯晓刚”;或者某个复杂的专有名词,用户自己也不是很清楚,例如图灵当年研究的Entscheidungsproblem,因为这个词很生僻,你可能只隐约记得 En...ch...dungsproblem。现代IR要求面对用户的错误输入或者不完整的输入也能给出尽量相关的查询结果,这就需要用到查询扩展。另一方面,自然语言本来就具有多意性,例如当你输入java时,它可能指一种计算机语言,也可能是印尼的一座岛,甚至是某个品种的咖啡豆。这些问题也要借助查询扩展来加以应对。


你可能会想到使用通配符(wildcard)来协助查询,这也的确可以解决上述我们列举的部分问题,事实上现代IR系统基本都有这方面的设计,但这还远远不够。为了应对语言本身的模糊性(ambiguity),我们还需要一些对query进行优化、提炼,从而使其更加明确。这方面的策略主要分成两类,即全局性

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

白马负金羁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值