【深度解密】ReAct的“上位替代”来了！新范式凭什么同时实现SoTA和高效率？-优快云博客

近年来，大型语言模型（LLM）在文本生成、对话系统等领域展现出强大能力，但它们有一个天生的短板：无法直接与现实世界互动。比如，你无法让一个LLM直接查询天气预报或预订机票，除非它能够调用外部工具（如API）。这种“工具增强”的能力让LLM从“纸上谈兵”升级为“实干家”，成为当前研究的热点。

然而，现有的工具调用框架（如ReAct）在处理简单任务时表现不错，一旦面对复杂任务——比如需要多个工具协同工作、步骤之间有依赖关系的情况——就显得力不从心。它们像是一个“走一步看一步”的导航系统，容易陷入局部最优，找不到全局最佳路径。

论文：Beyond ReAct: A Planner-Centric Framework for Complex Tool-Augmented LLM Reasoning
链接：https://arxiv.org/pdf/2511.10037

本文提出了一种全新的思路：将“规划”与“执行”分离，引入一个专门的“规划器”（Planner），负责在任务开始前就制定出一个全局执行计划，这个计划以“有向无环图”（DAG）的形式呈现，清晰标出工具之间的依赖关系。此外，作者还构建了一个大规模基准数据集ComplexTool-Plan，并设计了一套两阶段训练方法（SFT + GRPO），显著提升了模型在复杂任务中的表现。实验表明，该框架在多个基准测试中达到最先进水平，同时执行效率更高。

一、研究动机与问题定义

为什么需要“超越ReAct”？
ReAct是一种典型的“反应式”框架，模型在每一步决定下一步该调用什么工具。这种方式在简单任务中有效，但在复杂任务中容易“只见树木不见森林”。例如，如果任务需要先查询A工具的结果，再根据结果选择调用B或C工具，ReAct可能会在某个步骤选错工具，导致后续全盘皆输。这就是所谓的“局部优化陷阱”。

复杂任务的挑战
复杂任务通常涉及多个工具，且工具之间存在复杂的依赖关系。例如，“查询北京明天天气，如果下雨就推荐室内活动，否则推荐户外景点”需要调用天气API、活动推荐API等，并且步骤之间有条件判断。这种任务天然适合用DAG来表示，其中节点是工具，边是依赖关系。

问题形式化
作者将任务规划定义为一个“结构化预测问题”：给定用户查询和工具集，模型需要生成一个DAG执行计划，其中是选中的工具，是工具之间的依赖边。目标是训练一个模型，使其生成的计划的效用最大化。

二、方法论详解

整体框架：Plan-Execute范式

本文框架的核心是将规划与执行分离：

Planner：负责将用户查询转换为DAG计划。
Executor：按照DAG顺序并行执行工具调用。

这种设计使得Planner可以专注于全局优化，而不被执行细节干扰。

ComplexTool-Plan基准构建

由于缺乏训练数据，作者设计了一个三阶段自动化流程来生成高质量的训练数据：

工作流生成：使用强LLM（如DeepSeek-V3）根据工具库生成复杂DAG计划。
查询逆向工程：根据生成的DAG，反向推导出用户可能提出的自然语言查询。
意图分析与重规划：对查询进行再规划，确保生成的DAG与原始意图一致，保证数据质量。

两阶段训练方法

监督微调（SFT）
使用生成的训练数据对模型进行初始化，最小化负对数似然损失：

这里，是真实DAG，模型学习如何根据查询和工具集生成正确计划。
强化学习（GRPO）
SFT后，作者使用Group Relative Policy Optimization（GRPO）进行策略优化。关键在于设计了一个分层奖励函数，对生成计划进行多维度评估：

语法错误存在环节点不连通

其中：

这个函数像一个“严格考官”，先检查致命错误（如循环依赖），再评估细节正确性。

奖励边级别的结构正确性。
如果计划与真实DAG完全一致，给予额外奖励。

三、实验设计与结果分析

数据集介绍

ComplexTool-Plan：包含4,535个工具API，任务分为Easy/Medium/Hard三个难度级别。Hard任务工具选择更多，依赖更复杂。
StableToolBench：用于端到端评估，测试模型在真实场景中的工具调用能力。

基线方法

专有模型：GPT-4o、Claude-3.7等，直接生成DAG计划。
开源框架：ReAct、DFSDT、LLMCompiler等。

评估指标

节点级性能：工具选择的准确率、召回率、F1分数。
边级性能：依赖关系预测的准确率。
DAG精确匹配（EM）：整个DAG是否完全正确。
端到端指标：任务解决率（SoPR）和胜率（SoWR）。

关键结果

RQ1：RL是否比SFT更强？
是的。在Hard任务上，Qwen3-8B模型的DAG精确匹配从SFT的0.295提升到SFT+RL的0.319，相对提升8.1%。RL能纠正SFT难以捕捉的结构错误。

RQ2：模型越大越好吗？
是的。模型规模与性能正相关，且大模型在复杂任务中表现更稳健。例如，从Easy到Hard任务，Qwen3-8B的准确率下降60.3%，而Qwen3-1.7B下降71.2%。

RQ3：端到端效果和效率如何？

效果：Qwen3-8B在StableToolBench上平均SoPR达59.8%，超过GPT-4（ReAct）的48.2%。
效率：平均仅需2.29步完成任务，优于其他方法（如DTA-Llama的2.48步）。

四、讨论与创新点总结

创新点

全局规划取代局部优化：通过DAG计划避免ReAct的“短视”行为。
并行化潜力：DAG中无依赖的工具可以并行执行，提升效率。
高质量基准与训练方法：ComplexTool-Plan填补了复杂规划评估的空白，SFT+GRPO训练策略系统化提升模型能力。

实际价值
该框架适用于需要多工具协同的复杂场景，如智能客服、自动化工作流、多模态任务处理等。其高效性使其在资源受限环境中也具有应用潜力。

局限性

非迭代设计：一旦计划错误，无法中途修正。
对Planner模型容量要求高，小模型容易“奖励黑客”（只避免惩罚而不真正解决问题）。

五、结论与未来展望

本文提出了一种以Planner为中心的工具增强LLM框架，通过DAG全局规划、ComplexTool-Plan基准和SFT+GRPO训练方法，显著提升了复杂任务的处理能力。实验证明，该框架在规划质量和端到端效率上均达到最先进水平。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述