2025最全Agent基座模型指南：从多智能体蒸馏到Agentic RL，Chain-of-Agents实战全解析，收藏这篇就够了！

最新推荐文章于 2025-12-05 11:17:30 发布

原创最新推荐文章于 2025-12-05 11:17:30 发布 · 949 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #产品经理 #深度学习 #transformer #科技

Chain-of-Agents

TL;DR:

研究问题：当前的多智能体系统和工具集成推理方法在复杂问题解决中存在显著局限性，包括计算开销高、泛化能力有限、缺乏数据驱动的优化能力，以及无法支持端到端的多智能体协作。

研究方法：本文提出了一种新型的LLM推理范式——Chain-of-Agents (CoA），通过多 Agents 蒸馏和 Agentic RL 训练 Agent Foundation Models (AFMs)，使单个模型能够动态激活不同的工具智能体和角色扮演智能体，模拟多智能体协作的端到端问题解决流程。

Background

多 Agents 系统的问题：现在的多 Agents 系统需要研究人员为每个 Agent 设计提示词并手动编排他们之间的工作流程和通信协议，这存在多个缺点：计算效率低下、泛化能力差、无法通过数据学习持续改进。

工具集成推理：而另一条技术路线是工具集成推理（Tool-Integrated Reasoning, TIR）。这种方法训练一个 LLM 按照 ReAct 的步骤来使用 tools，这比手动提示更高效、更强大。但它本质上仍然是“单线程”的，无法模拟多智能体之间丰富的、并行的协作模式。

于是本文提出了 Chain-of-Agents（CoA）范式，旨在取两家之长，弃两家之短。它希望在一个模型内部，原生地、端到地实现复杂问题解决，其能力堪比一个多智能体系统，但其形态和效率却像一个 TIR 模型。论文将求解这类复杂问题（指原本需要多 Agents 才能解决的复杂问题）的模型称为 Agent Foundation Models（AFMs）。

本文的主要贡献：

一种名为 Chain-of-Agents 的基于 LLM 的问题求解范式，这种范式希望在单一模型中整合多智能体协作的能力。
一种多 Agents 蒸馏框架，可以将最先进的多 Agents 的能力蒸馏到一个 model 中，并设计了一种 Agentic 强化学习框架，通过强化学习来优化 Agent 模型。
使用本文提出的方法来训练 AFM，展示了 AFM 在多跳问答系统、网络搜索、代码生成和数学推理任务中均达到了新的 SOTA 水平，其性能由于 TIR 方法。

Method

Chain-of-Agents 范式

CoA 的核心思想非常直观：**为什么不把一个多智能体系统的协作过程，看作是模型内部的一种特殊“思维链”呢？**传统的思维链是“一步一步地想”，而 CoA 是“一个角色一个角色地切换着去想和做”。

在 CoA 范式中，给定一个复杂的查询后，模型不会固定地执行“想-搜-读”的循环，相反，它会在内部动态地激活不同的“子模块”或“角色”：

Role-playing Agents：负责高层次的认知和协调

包含思维 Agent、规划 Agent、反思 Agent、验证 Agent

Tool Agents：负责执行具体的领域任务

包括搜索 Agent、爬取 Agent 和代码生成 Agent

AFM 的训练包含了两步：

Agentic SFT：通过多 Agents 系统做 sampling 得到 behavior 数据，然后将这些 behavior 数据整理成一种特殊的 trajectory 用于作为 SFT 数据。
Agentic RL：通过 RL 强化 model 去更高效、更可靠地协调 tools 来解决难题。

Agentic SFT

目标是让模型“学会”CoA 的行为模式。方法是多智能体知识蒸馏。

论文首先设计了一个由多种 Agents 编排后的 workflow，并运行这个 workflow 来收集 behavior 数据：

然后将收集后的数据整理成如下格式的 trajectory 来做 SFT：

SFT 的 loss 就是 Observation Masking Loss。

具体如何做的数据清洗和质量过滤可以参考原论文。

Agentic RL

做 RL 之前也要先做训练数据的质量过滤，过滤出真实需要 Tool call 的 queries。

1）数据采样

这一步从开源数据集中筛选出那些真正需要工具才能解决的、有挑战性的查询。

Web Agent：先用一个强大的LLM（Qwen-72B）尝试直接回答问题，如果正确率超过30%，说明这个问题可能不需要工具或已被模型记忆，则被过滤掉。剩下的才是RL训练的“硬骨头”。
Code Agent：用一个较小的AFM模型尝试多次解决问题，如果一个题目每次都能被轻松解决，说明它不够难，也会被丢弃。

2）reward function 的设计

Web Agent 奖励（R_web）：结果导向。直接使用 LLM-as-a-Judge（让另一个 LLM 当裁判）来判断最终答案是否正确。正确则奖励为 1，否则为 0。这种设计简单直接，避免了复杂的奖励塑造可能带来的问题。
Code Agent 奖励（R_code）：结果 + 格式。奖励 = score_answer * score_format。score_answer 由代码是否通过测试或答案是否正确决定（1 或 0 ）。score_format 则检查工具调用（如代码块）的格式是否正确（1或0）。这意味着，即使代码逻辑正确，如果格式错误导致无法执行，也得不到奖励。

通过 RL 优化，模型在 SFT“模仿”的基础上，进一步学会了如何更高效、更可靠地协调工具来解决难题。

实验

实验设计

论文在 Web 和 Code 两大智能体任务上进行了 exhaustive 的实验，结果真不错。

多智能体蒸馏：从先进的 MAS 系统（如 OAgents）中提取协作轨迹，转化为CoA兼容的训练数据，用于监督微调（SFT）。
智能体强化学习：在可验证的智能体任务上优化模型，设计任务相关的奖励函数（如Web Agent的二元正确性奖励和Code Agent的格式-答案联合奖励）。
评估基准：在 Web Agent（GAIA、BrowseComp、HLE）和 Code Agent（LiveCodeBench、CodeContests）任务上对比AFM与现有方法（如ReAct、TIR、传统MAS）。

结果与分析

性能提升：AFM在多个基准上达到SOTA，例如：

Web Agent：GAIA（55.3%）、BrowseComp（11.1%）、HLE（18.0%）；
Code Agent：LiveCodeBench（47.9%）、CodeContests（32.7%）；
数学推理：AIME202.5（59.8%，较TIR方法提升10.5%）。

效率优势：相比传统MAS，AFM减少84.6%的推理令牌消耗，同时支持动态智能体编排。
泛化能力：AFM在未见过的智能体任务（如代码智能体调用搜索工具）中展现零样本适应性。

泛化性分析

一个有趣的实验是：将一个只在“代码”任务上训练过的AFM模型，突然赋予它“网页搜索”和“视觉检查”等它从未见过的工具描述，它能否正确使用？

结果是：可以！ 模型能够严格遵循提示词中的格式要求，在第一次尝试中就正确协调使用了这些新工具。这证明了 CoA 范式强大的零样本泛化能力。反之，一个只在“网页”任务上训练的模型，在面对需要严格代码格式的工具时则表现不佳，这突显了代码训练带来的格式严谨性的优势。

结论

CoA 范式通过将多智能体协作能力蒸馏到单一模型中，实现了高效、可扩展的端到端复杂问题解决。AFM在性能、效率和泛化性上显著优于现有方法，为智能体模型的训练与应用提供了新方向。本文开源了模型权重、训练数据和代码，以推动后续研究。

论

如何学习大模型 AI ？

我国在AI大模型领域面临人才短缺，数量与质量均落后于发达国家。2023年，人才缺口已超百万，凸显培养不足。随着Al技术飞速发展，预计到2025年，这一缺口将急剧扩大至400万，严重制约我国Al产业的创新步伐。加强人才培养，优化教育体系，国际合作并进，是破解困局、推动AI发展的关键。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

2025最新大模型学习路线

明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛，没有明确的学习路线可能会导致新人感到迷茫，不知道应该专注于哪些内容。

对于从来没有接触过AI大模型的同学，我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

在这里插入图片描述

针对以上大模型的学习路线我们也整理了对应的学习视频教程，和配套的学习资料。

大模型经典PDF书籍

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路！

在这里插入图片描述

配套大模型项目实战

所有视频教程所涉及的实战项目和项目源码等
在这里插入图片描述

博主介绍＋AI项目案例集锦

MoPaaS专注于Al技术能力建设与应用场景开发，与智学优课联合孵化，培养适合未来发展需求的技术性人才和应用型领袖。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

为什么要学习大模型？

2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

在这里插入图片描述

适合人群

在校学生：包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础，有志于深入AGI大模型行业，希望开展相关的研究和开发工作。
IT行业从业人员：包括在职或失业者，涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验，至少1年以上的编程工作经验，对大模型技术感兴趣或有业务需求，希望通过课程提升自身在IT领域的竞争力。
IT管理及技术研究领域人员：包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势，主导技术创新，推动大模型技术在企业业务中的应用与改造。
传统AI从业人员：包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作，现需要快速补充大模型技术能力，获得大模型训练微调的实操技能，以适应新的技术发展趋势。

课程精彩瞬间

大模型核心原理与Prompt：掌握大语言模型的核心知识，了解行业应用与趋势；熟练Python编程，提升提示工程技能，为Al应用开发打下坚实基础。

RAG应用开发工程：掌握RAG应用开发全流程，理解前沿技术，提升商业化分析与优化能力，通过实战项目加深理解与应用。

Agent应用架构进阶实践：掌握大模型Agent技术的核心原理与实践应用，能够独立完成Agent系统的设计与开发，提升多智能体协同与复杂任务处理的能力，为AI产品的创新与优化提供有力支持。

模型微调与私有化大模型：掌握大模型微调与私有化部署技能，提升模型优化与部署能力，为大模型项目落地打下坚实基础。

顶尖师资，深耕AI大模型前沿技术

实战专家亲授，让你少走弯路
在这里插入图片描述

一对一学习规划，职业生涯指导

真实商业项目实训
大厂绿色直通车

人才库优秀学员参与真实商业项目实训

以商业交付标准作为学习标准，具备真实大模型项目实践操作经验可写入简历，支持项目背调

大厂绿色直通车，冲击行业高薪岗位

文中涉及到的完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

2025最全Agent基座模型指南：从多智能体蒸馏到Agentic RL，Chain-of-Agents实战全解析，收藏这篇就够了！

Chain-of-Agents

Background

Method

Chain-of-Agents 范式

Agentic SFT

Agentic RL

1）数据采样

2）reward function 的设计

实验

实验设计

结果与分析

泛化性分析

结论

论

如何学习大模型 AI ？

2025最新大模型学习路线

大模型经典PDF书籍

配套大模型项目实战

博主介绍＋AI项目案例集锦

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

为什么要学习大模型？

适合人群

课程精彩瞬间

顶尖师资，深耕AI大模型前沿技术

一对一学习规划，职业生涯指导

文中涉及到的完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【`保证100%免费`】

文中涉及到的完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【`保证100%免费`】