无需修改任何代码,任意Agent皆可强化学习!微软推出的Agent Lightning框架,是真的强!!

前言

图片

AI Agent 已逐渐从科幻走进现实——不仅能够执行编写代码、调用工具、进行多轮对话等复杂任务,甚至还可以进行端到端的软件开发,已经在金融、游戏、软件开发等诸多领域落地应用。

然而,当前的 AI Agent 在训练与优化环节却面临着严峻挑战,传统强化学习(RL)方法也在复杂、动态交互场景下表现不佳。

为此,微软团队推出了一个灵活、可扩展的框架 —— Agent Lightning,其可对任何 AI Agent 进行基于强化学习的大语言模型(LLM)训练,有望重塑 AI Agent 的未来训练范式。相关研究论文已发表在预印本网站 arXiv 上。

图片

论文链接:https://arxiv.org/abs/2508.03680

核心贡献如下:

  • Agent Lightning 是首个实现 Agent 与强化学习训练完全解耦的框架 能够无缝应用于任何 AI Agent,无论其实现方式如何,几乎无需进行任何代码修改。将训练与 Agent 的执行逻辑对齐,提升了 Agent 在实际应用中的性能。这使开发者能够突破静态预训练模型的局限,释放自适应学习型 Agent 的全部潜力。

  • 在算法层面,Agent Lightning 基于 Agent 的马尔可夫决策过程(MDP)建模,并引入统一数据接口。该接口抽象化了不同 Agent 执行逻辑的复杂性,使 Agent 执行过程中收集的数据可直接转换为训练轨迹。此外,Agent Lightning 采用分层强化学习框架,并配备信用分配模块,将轨迹级回报分配给每次调用生成的响应。该设计与现有单轮强化学习算法无缝集成,实现高效且有效的训练。

  • 在系统层面,Agent Lightning 引入了 Training-Agent”解耦架构实现强化学习训练与 Agent 执行的清晰分离。该架构通过 Lightning Server 和 Lightning Client 实现,两者共同提供适用于任何 Agent 的标准化模型训练服务。Lightning Client 作为 Agent 运行时,透明地管理 Agent 执行并收集轨迹,无需进行代码修改。该设计使可观察性基础设施在训练场景中得以复用,确保了可扩展性(extensibility)、可伸缩性(scalability)和与各种 Agent 框架的无缝集成。

Agent Lightning: 训练任意 AI Agent

在真实世界中,AI Agent 的运行逻辑极为复杂,绝非简单的 “一问一答” 模式。它们常常需要多轮交互,像人类对话一样循序渐进推进任务,通过调用外部工具或 API,与外部系统交互获取更多信息,依据环境反馈和当前状态灵活做出**动态决策****,**甚至在复杂场景中,多个 Agent 需协同合作完成任务。

但现有强化学习训练框架,往往将强化学习训练过程与 Agent 的具体执行逻辑紧密“捆绑”,导致一系列问题,严重阻碍了强化学习在 AI Agent 大规模训练和部署中的应用。例如:

  • 耦合度高 若想利用强化学习训练一个已有的 Agent,开发者往往不得不对 Agent 代码进行大规模修改,甚至重构,开发成本巨大;

  • 扩展性差 针对特定任务设计的强化学习方法,很难直接迁移到其他类型的 Agent;

  • 数据利用率低 Agent 在真实环境中产生的丰富交互数据,因与强化学习训练框架不兼容而难以被有效利用;

  • 多轮交互生成的上下文序列过于冗长 增加了 LLM 计算和内存开销。

微软此次提出的 Agent Lightning 框架的核心创新点,在于实现了 AI Agent 执行与强化学习训练之间的彻底解耦。二者可独立运作,又能进行信息交换。

图片

图|Agent Lightning 概述

除了上述提到的完全解耦和统一数据接口之外,LightningRL 也是该研究的主要亮点之一。

LightningRL 是微软为利用收集到的转换数据优化策略 LLM,而提出的专为 Agent 训练设计的分层强化学习算法。

图片

图|LightningRL 示意图

该算法包含信用分配模块,能够将任何 Agent 生成的轨迹分解为训练所需的转换数据,从而使强化学习能够处理复杂的交互逻辑,如多 Agent 场景和动态工作流。在信用分配过程中,高层信用分配首先将整个任务的最终奖励合理分配到任务执行过程中的每一步骤,例如在最简单实现中,可让每一次调用的奖励都等于最终奖励。

经过高层信用分配后,低层策略更新将每一次 LLM 调用(input、output、reward)转化为一个独立的“单次调用”强化学习问题,此时可直接套用任何现成的、成熟的单次调用强化学习算法(如 PPO、DPO 或 GRPO),来更新模型参数。这种设计不仅具备灵活性和复用性,可直接利用社区中 SOTA 单次调用强化学习算法,还从根本上解决了因上下文累积导致的序列过长问题,避免了复杂易错的掩码操作。

Agent Lightning 将计算密集型的 LLM 生成与传统编程语言编写、轻量级但多样化且灵活的应用逻辑和工具分离。

在系统设计方面,Agent Lightning 引入了 **“**Training-Agent”解耦架构,构建了一个适用于任意 Agent 的标准化训练服务。该架构由 Agent Lightning Server 和 Agent Lightning Client 组成。

图片

图|Training-Agent 解耦架构

Agent Lightning Server: 作为强化学习训练系统的 “大脑”,承担着管理训练流程的重任,并通过类 OpenAI API 向客户端暴露更新后的模型。它负责运行强化学习训练算法、分配 GPU 资源、管理模型版本等一系列复杂且计算密集型的任务。

Agent Lightning Client: 包含两个功能模块:一个模块负责与服务器通信,实现数据传输与接收;另一个模块运行 Agent 并执行数据收集,充当 Agent 的运行时环境。

得益于统一数据接口,Agent 运行时能够将 OpenTelemetry 等全面的可观测性框架集成到训练过程中,用于轨迹收集。这一机制将监控基础设施与强化学习训练连接起来,使优化算法能够利用丰富的系统监控数据,从而构建更具可扩展性与灵活性的训练基础。这种 “前后端分离” 式的架构设计,彻底将 Agent 开发者从复杂的强化学习系统配置中解放出来,让他们得以专注于 Agent 本身的逻辑和创意,极大降低了 AI Agent 进化的门槛。

实验结果

研究团队在多个任务上对 Agent Lightning 框架进行了实验验证,涵盖 Text-to-SQL、开放域问答、数学问答等。在这些实验中,Agent Lightning 均展示出稳定且持续的性能提升。

图片

图|实验中任务和设置的总结

通过 LangChain 实现 Text-to-SQL

第一个任务采用 LangChain 实现,设计为多 Agent 系统架构。系统包含三个 Agent,工作流程如下:

SQL writing agent 首先会生成 SQL 查询语句并执行。若查询正确,SQL executor 会返回数据库信息;若出错,则返回错误提示。随后,checking agent 评估 SQL 查询的正确性及检索信息的有效性和完整性,并决定是重写查询还是直接生成答案;若需重写,re-writing agent 将根据 checking agent 的反馈修改查询语句;若无需重写,该 agent 同时承担问答任务,利用检索到的信息和问题生成最终答案。

在此工作流程中,SQL 写入(writing)、校验(checking)和重写(re-writing)均由同一 LLM 完成,但针对不同任务定制了专属提示,从而实现三个 Agent 协同运作。

在训练过程中,研究团队只对其中两个进行了优化,即 SQL writing agent 和 re-writing Agent,这两个 agent 是同步进行优化的,说明 Agent Lightning 可以在多 Agent 系统中选择性地对一个或多个 Agent 进行优化。

如图,Agent Lightning 能够稳定地提高奖励,展示了其优化涉及代码生成和工具使用的复杂多步决策的能力。

图片

图|Text-to-SQL 任务的奖励曲线

通过 OpenAI Agent SDK 实现检索增强生成

第二个任务是典型的检索增强生成(RAG)任务。给定一个问题和文档数据库,Agent 首先会生成自然语言查询,通过现有检索工具获取支持性文档。

该 Agent 是使用 OpenAI Agent SDK 实现的。与之前的 Text-to-SQL 任务相比,这里的 Agent 工作流程类似但更简单。策略 LLM 需要先生成查询请求,然后根据检索到的文档决定是优化查询还是直接生成答案。

该图展示了 Agent Lightning 在这一具有挑战性的任务上实现了稳定的性能提升,证明了其在更复杂和开放式 RAG 场景中的有效性。

图片

图 | 通过 AutoGen 实现数学问答 与工具使用

第三个任务是数学类问答任务,旨在评估 Agent 调用工具(具体指计算器)解决算术和符号问题的能力。最终的奖励取决于 Agent 是否正确回答了问题,模型的性能也通过测试集上的答案准确度进行评估。

如图,Agent Lightning 在训练过程中持续提高了性能。这证明了它在工具增强设置中的有效性,即需要精确的外部函数调用和推理。

图片

未来方向:推动 Agent 能力迭代升级

在论文的最后,研究团队也探讨了未来的工作方向。

首先,除了强化学习外,Agent Lightning 建模框架还很好地支持其他优化方法,如自动 prompt 优化。关注关键组件及其调用是 Agent 优化的主要方法,而不仅仅局限于基于强化学习的方法。为此,团队提出了“Component of Interest”(CoI)的概念,用于指定执行轨迹中受优化影响的组件子集。例如,prompt 模板渲染可视为工具调用,通过将该工具视为 CoI,Agent Lightning 可支持 prompt 优化方法。这种统一且可扩展的数据结构支持对 Agent 行为进行全面的下游优化与分析。

其次,研究团队认为,开发更高效的强化学习算法是解决复杂 Agent 场景下模型优化的关键,包括但不限于长程信用分配、探索算法、off-policy 算法等。Agent Lightning 通过过渡来建模和组织数据,使集成额外算法更加方便。

此外,支持 LLM 的强化学习基础设施持续演进,为与基于 Agent 的强化学习框架的协同开发提供了重大机会。一个有前景的方向是进一步分解系统组件,即将训练器、推断引擎和 Agent 工作流程分离,以解决推断瓶颈并提升大规模强化学习训练的可扩展性。探索此类架构改进可带来更高效且灵活的强化学习管道。此外,针对长程任务的优化将受益于强化学习算法与系统设计协同创新,从而实现复杂 Agent 更高效的训练。

最后,在 LLM 高效服务方面,研究团队建议采用更适合 LLM 的抽象方法,可以优化资源利用率和响应时间。此外,通过优化服务环境和工具的资源调度,还能进一步简化操作流程,提高在多样化部署场景中的扩展能力。

随着 Agent Lightning 框架解决了强化学习与 Agent 耦合的难题,强化学习有望成为 Agent 训练的标配。同时,Agent 在真实世界中产生的海量交互数据,将不再被闲置浪费。Agent Lightning 的统一数据接口,能够高效地将这些数据用于强化学习训练,推动 Agent 能力迭代升级。

最后

为什么要学AI大模型

当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!

DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

img

但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。

AI大模型入门到实战的视频教程+项目包

看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径

在这里插入图片描述
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

海量AI大模型必读的经典书籍(PDF)

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
在这里插入图片描述

600+AI大模型报告(实时更新)

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

AI大模型面试真题+答案解析

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值