论文名称:ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning
论文链接:https://arxiv.org/abs/2503.19470v2
机构:百川智能
Github代码链接:https://github.com/Agent-RL/ReSearch
简介
这篇论文提出ReSearch,通过RL训练LLMs,将搜索操作作为推理链的一部分,在无需推理步骤监督数据的情况下进行推理,在Qwen2.5系列模型上训练后经实验显示出强泛化性,且在RL过程中自然激发模型的反思和自我修正等高级推理能力。 整体思路与R1-Searcher、Search-R1非常相似,因此只介绍一些核心项。
一阶段RL
-
梯度方法:GRPO
-
外部检索结果:不参与loss计算,与R1-Searcher 设置一致。
-
多轮:同样考虑到了多步Rollouts的情况。
-
Reward Design:
-
Answer Reward:采用的是F1 Score,计算预测答案和标准答案的正确性差距。
-
Format Reward:主要检查是否正确遵循Prompt里面约束的定义格式。
-

模型训练
数据集
训练只用域内的数据集,测试的时候是覆盖所有数据集。
-
In-Domain:Musique(多跳问答)
-
Out-of-Domain:HotpotQA、2WikiMultiHopQA 和 Bamboogle。
模型选型
-
Baseline Model:无
-
Backbone Model:
-
Qwen-2.5-7B(Base/Instruct)
-
Qwen-2.5-32B(Base/Instruct)
-
Prompt
- For Base Model

转成中文版本如下:
用户与助手之间的对话。用户提出问题,助手解决问题。助手首先在脑海中思考推理过程,然后为用户提供答案。在思考过程中,如果需要,助手可以调用维基百科搜索工具来搜索特定主题的事实信息。推理过程和答案分别包含在<think> </think>和<answer

最低0.47元/天 解锁文章
1575

被折叠的 条评论
为什么被折叠?



