近年来,大型语言模型(LLM)在文本生成、对话系统等领域展现出强大能力,但它们有一个天生的短板:无法直接与现实世界互动。比如,你无法让一个LLM直接查询天气预报或预订机票,除非它能够调用外部工具(如API)。这种“工具增强”的能力让LLM从“纸上谈兵”升级为“实干家”,成为当前研究的热点。
然而,现有的工具调用框架(如ReAct)在处理简单任务时表现不错,一旦面对复杂任务——比如需要多个工具协同工作、步骤之间有依赖关系的情况——就显得力不从心。它们像是一个“走一步看一步”的导航系统,容易陷入局部最优,找不到全局最佳路径。

- 论文:Beyond ReAct: A Planner-Centric Framework for Complex Tool-Augmented LLM Reasoning
- 链接:https://arxiv.org/pdf/2511.10037
本文提出了一种全新的思路:将“规划”与“执行”分离,引入一个专门的“规划器”(Planner),负责在任务开始前就制定出一个全局执行计划,这个计划以“有向无环图”(DAG)的形式呈现,清晰标出工具之间的依赖关系。此外,作者还构建了一个大规模基准数据集ComplexTool-Plan,并设计了一套两阶段训练方法(SFT + GRPO),显著提升了模型在复杂任务中的表现。实验表明,该框架在多个基准测试中达到最先进水平,同时执行效率更高。
一、研究动机与问题定义
为什么需要“超越ReAct”?
ReAct是一种典型的“反应式”框架,模型在每一步决定下一步该调用什么工具。这种方式在简单任务中有效,但在复杂任务中容易“只见树木不见森林”。例如,如果任务需要先查询A工具的结果,再根据结果选择调用B或C工具,ReAct可能会在某个步骤选错工具,导致后续全盘皆输。这就是所谓的“局部优化陷阱”。
复杂任务的挑战
复杂任务通常涉及多个工具,且工具之间存在复杂的依赖关系。例如,“查询北京明天天气,如果下雨就推荐室内活动,否则推荐户外景点”需要调用天气API、活动推荐API等,并且步骤之间有条件判断。这种任务天然适合用DAG来表示,其中节点是工具,边是依赖关系。
问题形式化
作者将任务规划定义为一个“结构化预测问题”:给定用户查询 和工具集 ,模型需要生成一个DAG执行计划 ,其中 是选中的工具, 是工具之间的依赖边。目标是训练一个模型 ,使其生成的计划 的效用 最大化。
二、方法论详解
整体框架:Plan-Execute范式
本文框架的核心是将规划与执行分离:
- Planner:负责将用户查询转换为DAG计划。
- Executor:按照DAG顺序并行执行工具调用。
这种设计使得Planner可以专注于全局优化,而不被执行细节干扰。

ComplexTool-Plan基准构建
由于缺乏训练数据,作者设计了一个三阶段自动化流程来生成高质量的训练数据:
- 工作流生成:使用强LLM(如DeepSeek-V3)根据工具库生成复杂DAG计划。
- 查询逆向工程:根据生成的DAG,反向推导出用户可能提出的自然语言查询。
- 意图分析与重规划:对查询进行再规划,确保生成的DAG与原始意图一致,保证数据质量。
两阶段训练方法
-
监督微调(SFT)
使用生成的训练数据 对模型进行初始化,最小化负对数似然损失:这里, 是真实DAG,模型学习如何根据查询 和工具集 生成正确计划。
-
强化学习(GRPO)
SFT后,作者使用Group Relative Policy Optimization(GRPO)进行策略优化。关键在于设计了一个分层奖励函数,对生成计划 进行多维度评估:语法错误存在环节点不连通
其中:
这个函数像一个“严格考官”,先检查致命错误(如循环依赖),再评估细节正确性。
- 奖励边级别的结构正确性。
- 如果计划与真实DAG完全一致,给予额外奖励。
三、实验设计与结果分析
数据集介绍
- ComplexTool-Plan:包含4,535个工具API,任务分为Easy/Medium/Hard三个难度级别。Hard任务工具选择更多,依赖更复杂。
- StableToolBench:用于端到端评估,测试模型在真实场景中的工具调用能力。

基线方法
- 专有模型:GPT-4o、Claude-3.7等,直接生成DAG计划。
- 开源框架:ReAct、DFSDT、LLMCompiler等。
评估指标
- 节点级性能:工具选择的准确率、召回率、F1分数。
- 边级性能:依赖关系预测的准确率。
- DAG精确匹配(EM):整个DAG是否完全正确。
- 端到端指标:任务解决率(SoPR)和胜率(SoWR)。
关键结果
RQ1:RL是否比SFT更强?
是的。在Hard任务上,Qwen3-8B模型的DAG精确匹配从SFT的0.295提升到SFT+RL的0.319,相对提升8.1%。RL能纠正SFT难以捕捉的结构错误。

RQ2:模型越大越好吗?
是的。模型规模与性能正相关,且大模型在复杂任务中表现更稳健。例如,从Easy到Hard任务,Qwen3-8B的准确率下降60.3%,而Qwen3-1.7B下降71.2%。
RQ3:端到端效果和效率如何?
- 效果:Qwen3-8B在StableToolBench上平均SoPR达59.8%,超过GPT-4(ReAct)的48.2%。
- 效率:平均仅需2.29步完成任务,优于其他方法(如DTA-Llama的2.48步)。


四、讨论与创新点总结
创新点
- 全局规划取代局部优化:通过DAG计划避免ReAct的“短视”行为。
- 并行化潜力:DAG中无依赖的工具可以并行执行,提升效率。
- 高质量基准与训练方法:ComplexTool-Plan填补了复杂规划评估的空白,SFT+GRPO训练策略系统化提升模型能力。
实际价值
该框架适用于需要多工具协同的复杂场景,如智能客服、自动化工作流、多模态任务处理等。其高效性使其在资源受限环境中也具有应用潜力。
局限性
- 非迭代设计:一旦计划错误,无法中途修正。
- 对Planner模型容量要求高,小模型容易“奖励黑客”(只避免惩罚而不真正解决问题)。
五、结论与未来展望
本文提出了一种以Planner为中心的工具增强LLM框架,通过DAG全局规划、ComplexTool-Plan基准和SFT+GRPO训练方法,显著提升了复杂任务的处理能力。实验证明,该框架在规划质量和端到端效率上均达到最先进水平。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】


被折叠的 条评论
为什么被折叠?



