R1-Searcher使用强化学习增强语言模型解决问题的搜索能力

原创于 2025-06-30 17:30:52 发布 · 464 阅读

·

6

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#语言模型 #人工智能 #自然语言处理

R1-Searcher：Incentivizing the Search Capability in LLMs via Reinforcement Learning 2025.3

https://github.com/RUCAIBox/R1-Searcher

针对的问题：

现有大型推理模型在时间敏感或知识密集型问题上通常仅使用模型内部知识，导致回答不准确甚至出现幻觉。

思路:

让模型自行学会“何时检索＋如何利用结果”。

实现方法：

用纯 RL、不需要过程奖励或冷启动的蒸馏；激励大语言模型在推理过程中主动调用外部检索系统，提升解答能力。训练分为两个阶段：

第一阶段专注于让模型学会如何正确地发起检索请求。奖励包括两部分：检索奖励和格式奖励。

检索奖励：
请添加图片描述
n代表检索次数。

格式奖励：

请添加图片描述

正确的格式为：

第一阶段鼓励模型发起检索操作，并不关心模型答案的正确性。

第二阶段专注模型答案的正确性，让模型有效利用检索结果来回答问题。奖励包括答案奖励和格式奖励。

答案奖励：

利⽤了ground-truth 答案和预测答案的 F1 分数：

格式奖励：

相比于第一阶段的格式奖励，第二阶段加大了对格式的惩罚力度。

实验结果：

算法采用REINFORCE++。Backbone使用Qwen2.5-7B和Llam-3.1-8B，训练采用的是本地检索数据库。

请添加图片描述

其中HotpotQA和2Wiki是训练数据，Bambogle是域外数据。实验表明，GRPO在域外数据上表现好。REINFORCE++在域内数据上表现好。

在线搜索的扩展：

使用在线检索测试域外数据，具体，使用 Google API 检索网页，并用 GPT-4o-mini 总结长网页内容后融入推理模型。

[?为什么还要额外引入一个摘要模型，他自己不会总结吗]

作者给出的解释：经过CoT训练的模型（无论是sft还是rl），总结能力都会有所下降。

RL vs SFT 请添加图片描述

面对不确定的问题，RL倾向于利用检索来寻找答案，而SFT则倾向于利用模型内部不正确的知识进行回答。

总结：

论文提出了⼀种将 RAG 与 RL 相结合的 R1-Searcher 框架。该框架采⽤两阶段结果监督 RL方法，通过设计的奖励机制，使模型能够在推理过程中学习调用外部搜索引擎以获取相关知识。所提出的方法完全依赖于RL ，允许模型通过探索自主学习，而不需要任何指令微调冷启动。它展示了从域内训练数据集推⼴到域外测试数据集的能力，同时无缝切换到在线搜索以获取最新信息。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

张晓丽- 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。