Rocchio算法

最新推荐文章于 2020-04-06 21:22:27 发布

白马负金羁

最新推荐文章于 2020-04-06 21:22:27 发布

阅读量7.1k

点赞数 6

CC 4.0 BY-SA版权

分类专栏：自然语言处理信息检索文章标签：相关性反馈 PRF Rocchio算法信息检索

本文链接：https://blog.youkuaiyun.com/baimafujinji/article/details/50930260

自然语言处理信息检索专栏收录该内容

35 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

Rocchio算法源于1970年代的SMART IR系统，是一种相关反馈方法，通过调整查询向量来优化信息检索。该算法假设用户能判断相关文档，将相关文档集与不相关文档集的质心向量差作为新的查询向量，以提高检索的精确性和召回率。实际应用中，通常只采用正反馈，并通过调整权重参数α、β和γ来平衡原始查询和反馈信息的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、引子

查询扩展（Query Expansion）是信息检索领域的一个重要话题。一方面，用户本身可能会出错，他会输入一些错别字，比如把“冯小刚”，错写成“冯晓刚”；或者某个复杂的专有名词，用户自己也不是很清楚，例如图灵当年研究的Entscheidungsproblem，因为这个词很生僻，你可能只隐约记得 En...ch...dungsproblem。现代IR要求面对用户的错误输入或者不完整的输入也能给出尽量相关的查询结果，这就需要用到查询扩展。另一方面，自然语言本来就具有多意性，例如当你输入java时，它可能指一种计算机语言，也可能是印尼的一座岛，甚至是某个品种的咖啡豆。这些问题也要借助查询扩展来加以应对。

你可能会想到使用通配符（wildcard）来协助查询，这也的确可以解决上述我们列举的部分问题，事实上现代IR系统基本都有这方面的设计，但这还远远不够。为了应对语言本身的模糊性（ambiguity），我们还需要一些对query进行优化、提炼，从而使其更加明确。这方面的策略主要分成两类，即全局性