ASRank: Zero-Shot Re-Ranking with Answer Scent for DocumentRetrieval

RootKai

于 2025-04-06 18:39:34 发布

阅读量432

点赞数 3

分类专栏： RAG 文章标签：深度学习自然语言处理人工智能机器学习语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_38423732/article/details/147026991

版权

RAG 专栏收录该内容

12 篇文章

订阅专栏

一、动机

传统的检索方法不能将最相关的文档放在前面

二、解决方法

参考信息线索：一条相关信息的轨迹，引导用户找到正确的答案。

第一步：利用LLM生成答案线索，在整个过程中只执行一次。

第二步：使用较小的模型根据生成的答案线索对文档进行重新排序

三、方法详细

首先使用已有的检索方法检索到一些相关的文档，检索到了K个文档，记为下面：

第一步：利用LLM进行答案的线索生成

LLM是基于自回归模型来生成，序列中的每个单词的概率，即条件概率，通常使用Transformer模型实现，所以，我们还要使用一个掩码来遮盖未来的单词序列。表达式如下：

通过零样本的方法，让LLM生成一个答案线索，来引导LLM生成与查询语境相符的答案

第二步：重排序

贝叶斯定理：获得新的信息后，如何更新我们对事件发生的概率

概率的知识：

相乘（联合概率）：当你需要计算 两个事件同时发生的概率 时，使用相乘。这是 条件概率 或 联合概率 的基本概念。它可以表示为 P(A∩B)=P(A∣B)⋅P(B)，即两个事件依赖或独立发生的概率。

相加（加法规则）：当你需要计算 至少一个事件发生的概率 时，使用相加。如果事件是互斥的，可以直接相加；如果事件是 非互斥 的，需要减去它们同时发生的部分，以避免重复计算。

ASRANK是一个无监督的重排序方法，它的核心就是，通过LLM来评估文档的相关性，利用低一步产生的答案线索，作为上下文来判断相关性。

文档的相关性的得分计算如下：

文档的评估得分就是在给定的文档、查询、和答案线索的条件下，计算答案的每个token的logit然后对所有的logit求和就是这个文档整体的相关性

根据贝叶斯定理，来重构这个相关性分数：

用下面的这个公式计算查询和文档和答案线索条件下生成的答案概率：

最后使用下面的公式来计算文档的相关性分数：

注：注解，在基础相关的情况下，前面相关的概率

最后，我们选择分数最高的为最相关的文档：

四、结果

1.数据集：

TriviaQA、Natural Questions (NQ)、WebQuestions、EntityQuestions、ArchivalQA、HotpotQA、NFCorpus、DBPedia、Touche 和 News、TREC-DL19

2.评估指标

exact match, recall, F1 scores

3.实验结果

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。