大型语言模型(LLMs)通过大规模强化学习(RL)展现了卓越的推理能力。然而,利用RL算法赋能LLMs进行有效的多工具协作推理仍然是一个开放性挑战。为了解决这一问题,我们提出了 Tool-Star ,一个基于强化学习的框架,旨在引导大模型逐步高效掌握调用多种工具的能力,从而提升其处理复杂推理任务的泛化性。我们的实验表明,Tool-Star框架能够在复杂计算型推理任务(AIME24、AIME25、MATH、MATH500等),以及知识型推理任务上(WebWalker、MuSiQue、Bamboogle等)同时取得卓越的性能。我们相信Tool-Star为模型多工具协同推理的研究方向奠定了坚实基础。
论文标题:Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning论文链接:https://arxiv.org/abs/2505.16410代码仓库:https://github.com/dongguanting/Tool-Star开源数据:https://huggingface.co/datasets/dongguanting/Tool-Star-SFT-54K开源模型:https://huggingface.co/dongguanting/Tool-Star-Qwen-3B
目前不仅在X上收获了很高的关注度,同时荣登当日Huggingface Daily Paper第三名🥉
研究动机:赋予模型推理时多工具调用的能力
在最近的研究中,大语言模型通过大规模的强化学习展现出了卓越的能力。然而对于真实世界的复杂任务,仅靠模型本身的推理能力可能很难完成。工具调用被视为一种协助模型推理过程的有效手段。但是现有推理模型调用工具的研究并不充分,它们大部分聚焦于工具调用Prompt设计与强化学习激发模型单工具调用能力,对于多工具调用的研究仍待完善。因此,我们在研究中想解决以下两个问题:
- 如何赋予大模型多种工具协同推理的能力?
- 如何在保证模型推理能力的同时平衡工具调用成本?
Tool-Star框架:训练模型自主实现推理时的多工具调用
针对上述问题,我们提出了Tool-Star框架。这是第一个从数据端到训练流程优化以激发大模型的多工具调用的能力的全链路框架。如上图所示,我们的Tool-Star框架在10+个计算型推理任务与知识密集型任务上都有良好的表现。具体来说,我们的贡献如下:
- Tool-Star框架允许模型在训练阶段调用三种不同的工具(代码编译器、搜索引擎、网页浏览代理),并在测试推理阶段提供了额外的三种工具(代码调试器、回溯工具、精炼工具)以让模型在多工具辅助下完成推理任务。
- 为了解决工具使用数据稀缺的问题,我们提出了一种通用的工具推理数据合成流程,该流程结合了双重工具调用数据采样方法,并进一步引入了工具调用正则化与难度感知数据划分阶段,自动化合成高质量的工具调用数据集。
- 为了充分激发模型在多工具协作中的能力,我们创新性地提出了一个两阶段的训练框架:(1)我们引入冷启动监督微调策略,让模型具有初步的探索推理能力;(2)在第二阶段,我们引入了一种全新的自我批评奖励微调方法,在经典的GRPO训练中引入了奖励感知训练,以更促进模型对奖励机制的建模。
- 我们在十种具有挑战性的推理数据集(包括计算型推理任务和知识型推理)上充分验证了Tool-Star的有效性,并做了大量的分析实验以验证我们方法的泛化性。
工具设计:多样化工具激发模型复杂推理能力
多工具协作推理旨在使LLMs通过与多个外部工具的交互和协作,执行多步推理。目前已经有了大量的工作,专注于带工具调用的推理路径:
- 直接基于提示词工程的方法:严重依赖于模型已有能力,在小模型上很难实现。
- 基于单工具训练的方法:只能让模型专注于单方面的任务,缺乏泛化性。
- Tool-Star方法:在多个工具调用任务上进行训练,同时提升泛化性和准确性。
在本文中,针对工具的使用以及任务的复杂性,我们设计了一共六种工具供模型调用:
训练阶段
- 搜索引擎:执行搜索查询以检索相关信息,支持本地和基于网络的搜索模式。
- 网页浏览:通过访问URL解析网页搜索结果,提取相关内容,并总结关键信息以响应查询。
- 代码编译器:在沙箱环境中执行LLM生成的代码片段,根据代码的正确性返回执行结果或错误信息。
推理阶段
- 代码调试器:当代码执行出错时,调用一个与推理模型同尺寸的模型修正错误。
- 工具调用回溯:当代码调试出错时,回溯到agent发起工具请求前的部分,让agent重新输出。
- 推理精炼器:当推理路径过长时,调用额外的模型对推理路径进行精炼。
借助多种工具的帮助,Tool-Star能够在通用推理任务上表现优异。
数据集构建:自动化,可扩展地合成高质量工具调用训练数据
数据合成与采样:我们基于Numina-Math等多样化数据源进行工具调用数据合成,并采用以下两种采样策略:
- 采用prompting-base的方法,直接引导模型对训练集的问题进行调用工具推理。
- 采用hint-base的方法,在纯文本推理链中插入特殊token刺激模型调用工具推理。
工具调用正则化:基于合成的工具调用数据,我们采用以下准则进行不合理样本过滤:
- 去除工具调用次数过多的样本——保证推理链路的正确高效性。
- 去除调用内容多次重复的样本——保证推理链路的简洁精准性。
- 去除不符合格式要求的样本——保证推理链路的格式正确性。
难度感知数据划分:我们根据直接推理(DR)与工具调用推理(TIR)的结果,设计四维准则划分由易到难的划分冷启动微调与强化学习的数据集:
- DR对,TIR错:我们选择DR的数据作为冷启动微调数据,因为DR必要。
- DR对,TIR对:我们选择DR的数据作为冷启动微调数据,因为TIR并非必要。
- DR错,TIR对,我们选择TIR数据作为冷启动微调数据,因为TIR必要。
- DR错,TIR错:两种模式均无法答对,我们将这部分视作困难样本,在强化学习阶段进一步探索与泛化。
两阶段训练:冷启动微调+自校准的强化学习
我们设计了两阶段训练的方法,来激发模型的多工具调用能力:
-
冷启动微调阶段:我们使用构造的简单样本让模型快速熟悉工具调用的推理格式。
-
自校准的强化学习阶段:
-
-
多工具调用Roll-out模块:支持模型在采样过程中通过自主解码不同的特殊token来获得多样化的工具反馈。
-
Memory机制:对于重复的工具调用请求,我们设计memory模块直接返回结果,减少工具调用开销。
-
使用GRPO进行RL训练:基于筛选的RL训练数据进行强化学习训练。
-
层级奖励机制:输出格式错误时给予严格惩罚,格式与结果正确性给予奖励,对于同时调用搜索引擎和Python编辑器会给额外的奖励。
-
-
• Self-Critic机制实现reward感知训练:
综上所述,我们模型在冷启动后,每K步的RL训练就会搭配一次reward感知训练,如此反复可以on-policy地深化模型的奖励格式遵循能力。
-
- • 当GRPO进行K步数后,从训练集中随机采样出一批训练数据,并使用RL模型拒绝采样出若干回复。
- • 使用reward函数对每个样本的若干推回复后面拼接对应样本的奖励准则与分数(例如,该样本格式正确,但是答案错误,因此奖励分数为0)。
- • 我们根据奖励分数筛选出正负样例,并使用DPO方法在正负样本对上进行奖励感知训练。
实验结果:10+综合推理任务评测
为了充分评估Tool-Star的泛化性和高效性,我们考虑以下两种测试集:
- • **计算型推理任务:**评估模型的计算推理能力,包括AIME24,AIME25,MATH500,GSM8K,MATH。
- • **知识密集型推理任务:**评估模型结合外部知识推理的能力,包括WebWalker,HotpotQA,2WIKI,MisiQue,Bamboogle。
从实验结果可以发现:
- • **单纯基于prompt方法的局限性:**对于诸如Search-o1或者直接基于多工具Prompting的方法,模型难以理解复杂的任务需求,同时主动调用工具的能力很差,从而性能表现较低。
- • **单工具调用的RL方法泛化性较差:**单纯针对搜索任务的强化学习模型(Search-R1)或者单纯针对数学任务强化学习模型(ToRL)在各自的领域都有着较好的表现,但是难以在两类推理任务上同时取得泛化能力。
- • **Tool-Star展示了强大的推理能力以及稳定的泛化性:**Tool-Star稳定地优于单一和多工具基线,在10个数据集上平均准确率超过40%,同时在子任务上也保持了强大竞争力表现。这些结果凸显了Tool-Star的高效性与通用性。
实验:工具调用效率与推理工具性能分析
我们进行实验以验证Tool-Star的高效性与推理工具的有效性,我们进行了如下实验分析:
- • **工具调用效率大幅领先:**我们计算了Tool-Star方法和其他方法的工具使用效率,即当调用工具时回答问题的准确性。Tool-Star方法无论是在数学推理任务上还是知识密集型任务上,都取得了优秀的效果。
- • **代码调试器帮助提升性能:**相较于直接调用工具推理,引入Python调试器的方法能够很好地提升Tool-Star在数学推理任务上的能力。
- • **代码调试器提升了工具使用效率:**当引入Python调试器的时候,Tool-Star编写的代码出错的概率大大降低,这凸显了Python调试这一工具使用的必要性。
实验结果:SFT和RL的有效性
我们记录了在RL训练过程中同时监控了诸如奖励分数、相应长度的变化:
- • **奖励分数逐渐提高:**随着训练的进行,无论是训练集的奖励分数还是验证集的奖励分数,总体变化趋势都是在提高的,这充分说明Tool-Star的RL训练稳定有效。
- • **输出长度稳定收敛:**随着训练的进行,模型输出长度稳定收敛,也并不存在“顿悟时刻”。这说明冷启动让模型在RL阶段快速收敛到了更优工具调用的范式上,增强了RL阶段的稳定性。
总结与未来展望
Tool-Star框架成功地赋予了大模型多工具调用的能力,解决了模型在知识密集型真实世界任务中和数学推理型任务的局限性。通过多种工具适时调用,Tool-Star使模型推理能够在多种任务上生成稳定输出。未来,为持续提升TIR推理模型的能力,仍有很多方向值得探索:
- • **多模态TIR任务:**Tool-Star基于文本推理模型,难以处理图像等其他模态的信息。未来可以扩展到图像、视频等多模态内容的深度研究,在此任务重探究模型的多工具调用能力。
- • **多工具扩展:**Tool-Star成功展现了模型的多工具调用的潜能。未来可以通过工具学习来不断优化工具使用策略,并扩展更多工具,来支持更复杂的任务。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。