【LLM Tool Learning】论文分享:R1-Searcher

论文名称:R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning

论文链接:https://arxiv.org/abs/2503.05592v2

机构:人大高瓴人工智能学院

Github代码链接:https://github.com/RUCAIBox/R1-Searcher

简介

R1-Searcher提出一种基于Reinforce++算法的两阶段RL框架,通过自主调用外部搜索工具增强LLM的回答能力。该框架无需过程奖励或蒸馏,实验显示其性能显著优于现有 RAG 方法,甚至超越闭源模型 GPT-4o-mini。

两阶段RL

Stage-1:学会用外部检索

采用retrieve-reward和format reward 来激励模型使用外部检索工具进行回答作业,而不考虑最终答案的准确性,最后的reward scroe为两者之和。

  • Retrieve reward:n表示检索调用的次数,只要大于等于1(说明模型去使用检索工具了),就有奖励得分,因为就是要激励模型去发起搜索查询。

在这里插入图片描述

  • Format reward:首先肯定要定义什么是正确的格式,有三个判断条件

    • 模型的思考过程和最终答案应分别包含在<think>...</think><answer>...</answer>标签中,并且<answer>...</answer>标签中只允许使用最后的简短答案。

    • 生成的输出必须没有任何乱码或不可读的内容。

    • 调用检索时,模型应提出查询并将查询封装在<begin_of_query>...</end_of_query>标签中,并且模型无法在不调用 retrieval 的情况下直接生成文档。

在这里插入图片描述

Stage-2:根据检索结果准确回答

采用 answer reward & format reward,激励模型学习有效地利用外部检索结果来正确解决问题,最后的reward scroe为两者之和。

  • Format reward:判断条件与stage-1里面的一致,但奖励分数的机制变了。

在这里插入图片描述

  • Answer reward:使用参考以及预测答案的F1分数计算,其中PN 表示预测答案的字数,RN表示参考答案的字数,IN表示两个答案之间交集的字数。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

依然易冷

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值