【本期聚焦】谷歌发布首份生产级Agent白皮书,明确定义5级能力分类与A2A交互标准;Agentic RL研究范式确立,强化学习成为下一代智能体核心驱动力;Mem-α突破记忆学习瓶颈,首次实现强化学习驱动的自主记忆构建;蚂蚁集团提出AgentPRM过程奖励模型,在多任务中实现8倍计算效率提升;AgenticSciML框架验证多智能体协作潜力,在科学计算任务中实现误差数量级降低。
本期内容围绕11月16日-11月29日AI Agent领域的关键突破,从生产级标准、训练范式、记忆机制、奖励模型到多智能体协作,系统性地展现了智能体技术从理论基础到工程实践的全面成熟。基础设施层与算法层的协同演进,正推动AI Agent从概念验证迈向规模化落地应用新阶段。
一、谷歌正式定义生产级AI Agent:5级分类、5步循环、A2A交互与Agent Ops运维
内容提要:
1.白皮书定位与目标:最新发布的Agent白皮书是一份正式指南,旨在帮助开发人员等角色将Agent系统从概念验证阶段过渡到构建生产级系统,重点解决安全性、质量和可靠性等挑战。
2.Agent定义与工作流程:AI Agent被定义为一个结合了模型、工具、编排层和部署四要素的完整应用程序。其通过“获取任务、扫描场景、思考、采取行动、观察与迭代”的五步循环来解决问题。
3.Agent系统能力分级:白皮书提出一个5级分类法来界定Agent能力,从级别0(核心推理系统)到级别4(能动态创造新工具或新代理的自我进化系统)。
4.关键构建与运维考量:
-
多Agent协作:解决复杂任务的最佳方式是采用由“专家”代理组成的团队模式(如协调器模式、迭代优化模式)。
-
Agent运维(Agent Ops):是管理Agent系统“不可预测性”的结构化方法,是DevOps和MLOps的演进。
-
Agent评估:需确定评估指标(如目标完成率),并采用LM-as-Judge等方式评估其概率性输出。
-
交互性:涉及与人的多模态通信、Agent间通过A2A协议通信,以及与安全支付协议的交互。
-
安全性:对单个Agent推荐混合防护方法(确定性护栏+基于推理的防御);企业级需管理Agent身份并建立治理机制以防“代理泛滥”。
5.Agent学习与进化:Agent可通过运行时经验(如日志)和外部信号进行学习,并通过增强上下文工程或工具优化等方式实现进化。
在AI Agent的架构中,编排层是负责管理其操作循环(如规划、记忆等)的组件,它协调模型、工具等其它要素,驱动Agent完成“思考-行动-观察”的迭代工作流程。
二、Agent 内卷升级 Agentic RL,下一代 AI Agent 的必经之路
内容提要:
1.核心范式转变:从“说对话”到“做成事”:论文定义了AI Agent的下一阶段,其核心是从传统RLHF(优化模型“说对话”以对齐人类偏好)转向Agentic RL(训练模型在真实动态环境中“做成事”以完成复杂任务)。训练环境也从静态文本变为网页、代码库等活生生的环境。
2.Agentic RL 的本质与形式化定义:Agentic RL被形式化定义为一个部分可观察的、时间上延伸的马尔可夫决策过程(POMDP)。其核心是使用强化学习(RL)训练LLM在一个持续的多步骤“观察-思考-行动”循环中,学会自主决策,以最大化完成长远任务的累积奖励。
3.强化学习赋能Agent的六大核心能力:论文系统阐述了RL如何具体提升Agent的六大核心能力:
- 规划:从依赖提示词的僵化规划,变为RL驱动模型学会策略性规划。
- 工具使用:从模仿人类使用工具的SFT,变为RL优化最终任务成功率,让Agent策略性地使用工具。
- 记忆:从静态的外部数据库,变为RL驱动的动态、可控的记忆子系统。
- 自我提升:从临时的口头自我纠正,变为RL驱动的内化自我纠正和迭代自训练的无限进化循环。
- 推理:RL被用于训练更可靠、准确的“慢思考”能力。
- 感知:RL推动多模态Agent从被动感知走向主动视觉认知。
4.Agentic RL 的具体任务应用场景:论文展示了Agentic RL在多个前沿领域的应用,包括能进行深度研究的搜索与研究Agent、通过代码执行反馈优化的代码Agent、数学推理与证明、GUI操作以及多智能体系统的协作。
5.未来方向与挑战:论文指出,Agent发展进入“深水区”,未来构建强大可靠的Agent,掌握RL将是“必需品”。挑战包括Agent的安全性与可信赖性、训练成本以及构建更复杂的训练环境。
在强化学习(特别是基于验证器反馈的算法)训练下,智能体能够进行结构化、多步的深度思考,通过生成可靠的中间推理链来提升任务解决的准确性,这是相对于快速直觉式回答的"快推理"而言的。
三、30 个必知的 AI Agent 关键术语
本文整理了AI Agent领域的30个核心术语。掌握这些术语对于理解现代AI智能体的思考、行动与协作机制至关重要。如果你正在使用诸如LangChain、Spring AI、CrewAI等主流智能体框架,这份术语表将帮助你厘清其关键组件之间的关联。
四、AI Agent:7个国内框架 & Agent应用
内容提要:
1.工程核心模块构成。智能体系统包含四个核心工程模块:推理、记忆、工具使用和行动执行。
2.推理模块功能。负责运用逻辑和算法处理信息并做出决策,包括分析问题类型、识别关键信息和生成解决方案。
3.记忆模块机制。通过短期记忆维持当前交互的上下文信息,借助长期记忆积累历史知识和经验以供后续任务参考。
4.工具调用能力。支持调用外部工具和资源(如计算器、搜索引擎、数据库)来扩展系统功能,例如使用数据分析工具进行处理和可视化。
5.行动执行层面。通过发送消息、执行代码、控制设备等具体操作来实现预定目标,是将决策转化为实际效果的关键环节。
五、AI Agent 在企业领域的应用场景盘点:30 个智能体落地案例深度剖析
内容提要:
1.AI Agent的市场前景与核心价值。AI Agent市场预计以43%的年复合增长率增长,2028年将达285亿美元。其核心价值在于通过自动化和智能化处理任务,帮助企业提升效率、减少人为错误并优化客户体验。
2.客户服务与营销场景的应用。在客服领域,AI Agent可实现24/7个性化服务、语音搜索优化和情感识别;在营销中,能进行市场研究、个性化推荐和自动化内容创作,显著提升客户满意度和转化率。
3.工作流程与运营管理的自动化。AI Agent可自动化招聘、供应链管理、财务审计、发票处理等工作流程,通过预测分析、资源优化和实时监控,提高运营效率并降低错误率。
4.IT安全与行业专项解决方案。在IT领域,AI Agent能强化物联网安全、自动化威胁检测和漏洞测试;在金融、医疗、制造等行业,提供风险管控、药物研发、生产优化等专项解决方案。
5.技术赋能与实施展望。AI Agent依赖生成式AI和机器学习技术,其落地需结合业务场景选择合适框架。企业需积极布局这一技术,以在数字化转型中保持竞争力。
六、强化学习+大模型记忆:Mem-α,让智能体第一次学会“如何记忆”
1.研究背景与问题定位。当前大模型面临外部记忆系统依赖人工规则的问题,导致模型无法真正理解何时存储、更新和组织记忆。Mem-α 首次将强化学习引入记忆管理体系,旨在让模型自主学习记忆构建策略。
2.方法核心:强化学习驱动的记忆管理。Mem-α 将记忆构建建模为序列决策问题,通过多维度奖励函数(如问答准确率、记忆压缩效率、内容有效性)端到端优化记忆策略,取代依赖手工规则或监督学习的方法。
3.三层记忆架构设计。参考人脑记忆系统,Mem-α 采用分层记忆结构:核心记忆(用户身份与偏好)、情景记忆(时间线事件)、语义记忆(结构化知识),模型通过强化学习训练自主选择记忆类型与操作。
4.实验效果与性能突破。在MemoryAgentBench测试中,Mem-α 在精确检索、长期理解等任务上显著优于基线模型,且泛化能力强(可处理长达474K tokens的文档),记忆占用减少50%,实现效率与性能兼得。
5.研究意义与未来方向。Mem-α 证明记忆管理可从工程问题转化为可学习问题,强化学习能使模型自主演化记忆策略。该工作为多模态记忆、个性化记忆策略等方向提供了新思路。
七、多智能体开始“自动做科研”?AgenticSciML 带来全新科学计算范式
内容提要:
1.研究背景与问题定位。大模型在科学机器学习等高精度数值任务中表现不佳,单一智能体难以同时处理数据分析、架构设计、代码生成等多环节任务,导致误差累积和推理不稳定。
2.框架核心:多智能体协作系统。AgenticSciML采用"科研团队式"多智能体框架,包含数据分析、方案提出、批判评审、代码实现、结果分析等专职智能体,通过分工协作完成科研全流程。
3.工作流程与进化机制。系统通过自然语言输入建立"问题契约",各智能体依次执行数据分析、文献检索、方案辩论、代码实现等步骤,形成不断扩展的"模型进化树",通过多轮迭代优化模型。
4.实验验证与性能表现。在PINN求解、算子学习等基准测试中,框架显著优于单模型方案,误差降低数个数量级,并能自动组合出文献中未明确记载的新方法。
5.创新价值与意义。该框架不仅能复现文献方法,更能通过多智能体协作自主提出新的SciML技术路线,展示了面向自主科研的系统性突破。
在多智能体科研框架中,通过多轮迭代优化产生的解决方案谱系结构,每一代的最佳模型作为下一代优化的基础,形成不断扩展和性能提升的解决方案树。
八、计算效率提升8倍,复旦黄萱菁教授团队提出AgentPRM:重新定义智能体过程奖励
内容提要:
1.研究背景与问题提出。智能体任务具有动态性和上下文敏感性,传统大语言模型在序列决策任务中面临动作正确性不明确、决策存在序列依赖等挑战。为此提出AgentPRM过程奖励模型,通过评估每步决策对最终目标的贡献来改进智能体性能。
2.方法核心:过程奖励模型设计。AgentPRM包含两个核心组件:值函数评估未来成功可能性,优势函数捕捉步骤间依赖关系。通过结合时序差分和广义优势估计的自动化方法获取训练数据,平衡探索与利用。
3.训练数据获取与损失函数。采用时序差分结合广义优势估计的方法自动生成价值标签,避免传统蒙特卡洛方法的高计算成本。最终损失函数结合动作值预测和优势估计,通过超参数平衡两项损失。
4.实验验证与性能表现。在多项智能体任务上,AgentPRM比基线方法计算效率提升超过8倍,在Best-of-N采样和束搜索中均表现更优,且随着推理计算增加保持稳定性能提升。在强化学习优化中也展现更好稳定性。
5.泛化能力验证。在数学推理任务上的实验表明,AgentPRM在GSM8K数据集上显著优于基线奖励模型,展现出向代码生成、逻辑推理等任务拓展的潜力。
一种结合广义优势估计(GAE)的自动化训练数据获取方法,通过计算相邻状态的动作值差异来生成可靠的价值标签,避免传统蒙特卡洛方法的高计算成本。
那么,如何系统的去学习大模型LLM?
作为一名深耕行业的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~

👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。


👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。

👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。

👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。

👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!

被折叠的 条评论
为什么被折叠?



