【LLM Tool Learning】论文分享:Search-R1

论文名称:ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning

论文链接:https://arxiv.org/abs/2503.19470v2

机构:百川智能

Github代码链接:https://github.com/Agent-RL/ReSearch

简介

这篇论文提出ReSearch,通过RL训练LLMs,将搜索操作作为推理链的一部分,在无需推理步骤监督数据的情况下进行推理,在Qwen2.5系列模型上训练后经实验显示出强泛化性,且在RL过程中自然激发模型的反思和自我修正等高级推理能力。 整体思路与R1-Searcher、Search-R1非常相似,因此只介绍一些核心项。

一阶段RL

  • 梯度方法:GRPO

  • 外部检索结果:不参与loss计算,与R1-Searcher 设置一致。

  • 多轮:同样考虑到了多步Rollouts的情况。

  • Reward Design:

    • Answer Reward:采用的是F1 Score,计算预测答案和标准答案的正确性差距。

    • Format Reward:主要检查是否正确遵循Prompt里面约束的定义格式。

在这里插入图片描述

模型训练

数据集

训练只用域内的数据集,测试的时候是覆盖所有数据集。

  • In-Domain:Musique(多跳问答)

  • Out-of-Domain:HotpotQA、2WikiMultiHopQA 和 Bamboogle。

模型选型

  • Baseline Model:无

  • Backbone Model:

    • Qwen-2.5-7B(Base/Instruct)

    • Qwen-2.5-32B(Base/Instruct)

Prompt

  • For Base Model

在这里插入图片描述

转成中文版本如下:

用户与助手之间的对话。用户提出问题,助手解决问题。助手首先在脑海中思考推理过程,然后为用户提供答案。在思考过程中,如果需要,助手可以调用维基百科搜索工具来搜索特定主题的事实信息。推理过程和答案分别包含在<think> </think><answer
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

依然易冷

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值