【LLM Tool Learning】论文分享:SWiRL(Multi-Step)

论文名称:Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use

论文链接:https://arxiv.org/abs/2504.04736

机构:斯坦福大学计算机科学系 + Google DeepMind

简介

这篇论文提出一个逐步强化学习(SWiRL)方法,用来解决LLM在处理如多跳问答、数学解题等需要多步推理和工具使用的复杂任务时面临的挑战,这些任务要求模型分解问题、适时调用工具并合成结果,而传统RL方法(如RLHF、RLAIF)聚焦单步优化无法有效应对。所以SWiRL通过合成数据和离线RL优化的策略,能够提升模型多步推理和工具使用能力。

Stage-1:Synthetic Data Generation

流程概述

在这里插入图片描述

图1展示的是SWiRL的第一阶段:合成数据生成 。流程如下:

  • 一开始有个“Prompt”(粉红色框 ),这相当于给模型的一个起始提问或者任务指示。

  • 然后进入多个步骤(从左到右 ),每个步骤都包含“Action”(浅蓝色框 )和“Env response”(绿色框 )。“Action”可以理解为模型采取的操作,“Env response”就是环境(比如调用工具等操作后得到的反馈 )给出的响应。从“Step 1”到“Step N”,一步步推进,直到最后“Action N”得到“Final Answer”(最终答案 )。

  • 在每个步骤中,会根据前面的上下文(比如第一步依据“Prompt” ,第二步依据“Prompt和Step 1” ,第N步依据“Prompt和Steps 1到N - 1” ),给出该步骤操作的“process label”(过程标签 )。

  • 接下来有两种过滤方式:

① 过程过滤:用LLM判断所有步骤的“process label”是不是都是正向的(合理的 ),如果是,这些数据就成为“Process - filtered data”(过程过滤后的数据 )。

② 结果过滤:判断最终答案“Final Answer”和“golden answer”(标准答案 )相比是不是正确的,如果正确,这些数据就成为“Outcome - filtered data”(结果过滤后的数据 )。

实现细节

  • Step-1:合成轨迹生成

① 通过为语言模型配备工具(如搜索引擎、计算器 ),迭

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

依然易冷

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值