论文名称:R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning
论文链接:https://arxiv.org/abs/2503.05592v2
机构:人大高瓴人工智能学院
Github代码链接:https://github.com/RUCAIBox/R1-Searcher
简介
R1-Searcher提出一种基于Reinforce++算法的两阶段RL框架,通过自主调用外部搜索工具增强LLM的回答能力。该框架无需过程奖励或蒸馏,实验显示其性能显著优于现有 RAG 方法,甚至超越闭源模型 GPT-4o-mini。
两阶段RL
Stage-1:学会用外部检索
采用retrieve-reward和format reward 来激励模型使用外部检索工具进行回答作业,而不考虑最终答案的准确性,最后的reward scroe为两者之和。
- Retrieve reward:n表示检索调用的次数,只要大于等于1(说明模型去使用检索工具了),就有奖励得分,因为就是要激励模型去发起搜索查询。

-
Format reward:首先肯定要定义什么是正确的格式,有三个判断条件
-
模型的思考过程和最终答案应分别包含在
<think>...</think>和<answer>...</answer>标签中,并且<answer>...</answer>标签中只允许使用最后的简短答案。 -
生成的输出必须没有任何乱码或不可读的内容。
-
调用检索时,模型应提出查询并将查询封装在
<begin_of_query>...</end_of_query>标签中,并且模型无法在不调用 retrieval 的情况下直接生成文档。
-

Stage-2:根据检索结果准确回答
采用 answer reward & format reward,激励模型学习有效地利用外部检索结果来正确解决问题,最后的reward scroe为两者之和。
- Format reward:判断条件与stage-1里面的一致,但奖励分数的机制变了。

- Answer reward:使用参考以及预测答案的F1分数计算,其中PN 表示预测答案的字数,RN表示参考答案的字数,IN表示两个答案之间交集的字数。

最低0.47元/天 解锁文章
1523

被折叠的 条评论
为什么被折叠?



