ROCK & ROLL!阿里给智能体造了个实战演练场 | 开源

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

智能体终于拥有了可以海量复制的“实战演练场”。

阿里此次开源的新项目ROCK,解决了无法在真实环境中规模化训练的难题。

有了ROCK,开发者想要训练AI执行复杂任务时可以不再“手搓”环境,直接进行标准化的一键部署。

它与阿里此前的RL训练框架ROLL形成了绝妙配合——

ROLL负责教AI怎么思考(训练算法),ROCK负责提供AI练习的场所(环境沙箱)。

两者协同作战,构成了完整的智能体训练闭环。

这套组合打通了智能体训练的链路,让开发者不再被底层基建困扰,实现从单机实验到集群大规模训练的跨越,推开了Agentic AI规模化应用的大门。

环境服务,智能体进化的缺失一环

当下大语言模型正在经历一场深刻的范式转变,最前沿的模型已经进化为能够与外部环境深度交互的Agentic模型。

这种演化不仅仅是技术上的进步,更代表了AI应用场景的根本性扩展。当前几乎所有的SOTA级模型都具备了多轮交互能力,能够通过工具调用、代码执行、外部API调用等方式与环境进行交互。

简单说就是,模型只是“能说”已经无法满足需求,现在还要会做,它们需要调用工具、跑代码、调API,跟外部环境真刀真枪地交互。

从业务价值角度来看,这一转变意义重大。许多企业的自动化链路需要的不仅仅是文本建议或分析报告,而是能够直接执行的动作。

不过要训练好这样的Agent,光有聪明的大模型大脑只是基础,后续还需要对模型进行训练,让模型学会在特定任务环境中规划并执行正确的决策序列。

这是一个系统工程,得凑齐四块拼图:大脑(LLM)、考卷(任务描述)、教练(RL框架),以及最容易被忽视的一块——训练场(环境服务)。

很多从业者面临的困境,往往就和这个“训练场”有关。

如果把RL框架比作发动机,那么训练环境就是燃料。对于Agentic模型而言,环境服务的稳定性和效率直接决定了模型的Scaling潜力,也就是能否通过大规模交互数据持续突破性能瓶颈。

一个高效稳定的环境服务需要同时处理数千乃至数万训练实例,需要毫秒级的快速反馈,需要可靠地维护、回溯和重置环境状态,还需要适配多样化任务类型与复杂度。

环境服务的性能瓶颈往往直接成为整个训练流程的“卡脖子”问题。

为突破这一制约,开发者需要双轨并行——既要构建高度可定制化与高性能的强化学习训练框架,也要建立高效稳定、弹性伸缩的环境管理运行体系,两者协同才能释放Agentic模型的真正潜力。

ROLL框架,高性能的驱动引擎

ROLL基于Ray构建,专门为了大规模LLM强化学习打造,覆盖从小规模预研到数千卡百亿参数生产环境的完整RL优化流程。

ROLL提供了丰富的功能特性,涵盖了强化学习训练的各个方面——

  • 支持数学、代码、推理等多领域任务联合训练;

  • 原生支持Agentic RL,灵活适配游戏、多轮对话、工具调用、CodeAgent等多步决策场景;

  • 深度集成Megatron-Core、Deepspeed等主流框架,支持先进的5D并行策略;

  • 具备样本级生成管理、异步推理、异步训练加速等核心机制。

为了让Agent训练得更快,ROLL专门搞了环境异步交互和冗余采样。而且,它用了一套非常简洁的标准接口——GEM

ROLL采用GEM通过极简的env.reset和env.step两个核心方法,大幅简化了Agentic RL的交互过程。

这种简洁的设计使得任何新的业务应用都能快速适配,无需复杂的接口转换。

环境开发者只需实现标准的reset/step方法,即可无缝接入ROLL的训练体系,实现从简单游戏到复杂工具调用等各类Agentic任务的统一管理。

ROLL作为驱动引擎,在Agentic RL训练过程中的Scaling能力对环境服务提出了极高的具体要求——

  • 它能并发处理数万个实例,这就要求环境服务得扛得住这么大的吞吐量;

  • 它有容错机制,这就要求环境得有足够的冗余;

  • 它支持异步Rollout,这就要求环境拉起要快,生命周期管理要细。

现在,虽然训练引擎准备好了,但环境还没完善,就是在这个背景下,ROCK登场了。

打造智能体训练的标准化工厂

ROCK(Reinforcement Open Construction Kit),名字一听就很硬核。

智能体训练轻松实现规模化

它的核心使命就一个词——规模化。

一个聪明的Agent,其智能的广度与深度,取决于它所能探索世界的规模与多样性。

但传统训练里,复杂的环境太吃资源了,单机跑几个就满载,成为了限制Agent训练规模的硬性天花板。

ROCK的诞生,正是为了击碎这块天花板。

它的底座也是Ray,这让它能把一堆杂乱的计算集群,抽象成一个整齐划一、弹性伸缩的“环境资源池”。

以前你要配置一套集群环境,可能得折腾好几天。现在用ROCK,只需修改配置参数,就能在分钟级别内,自动调度和拉起成千上万个并行训练环境。

开发者不必再关心繁琐的节点管理和资源分配,可以完全聚焦于算法本身。

而且它还支持前所未有的训练灵活性,支持在同一集群中,同时运行同构(来自同一镜像)与异构(来自不同镜像)的环境。

这既满足了大规模重复探索的需求,也为提升Agent在网页浏览、代码编写等不同任务间的泛化能力提供了至关重要的保障。

告别环境“黑盒”

除了规模大,ROCK还解决了一个让开发者抓狂的问题——环境是个“黑盒”。

Agent跑着跑着动作变形了,到底是因为环境出bug了,还是Agent自身出现了问题?以前很难知道。

ROCK直接给开发者开了一个“上帝视角”——程序化的Bash交互能力

它把Linux Shell的能力通过SDK和HTTP API开放了出来,让开发者可以像操作本地终端一样,与成百上千个远程Sandbox进行深度交互。

不论想查某个Sandbox里的文件,还是查看实时日志或者进程状态,甚至想动态改动环境变量都没问题。

这种调试体验,既保留了单机开发的直观,又实现了分布式的规模。

灵活部署与企业级稳定

为了打通开发和生产那“最后一公里”,ROCK还设计了一套“一次编写,随处运行”的方案。

在刚开始写代码的时候,你可以用本地独立运行模式。把它当个纯净的“环境实验室”,跑跑单元测试,验证下你的Chrome浏览器装没装好,文件系统能不能写。

这时候不需要启动庞大的训练流程,先确保环境本身是健康的。

代码写差不多了,就可以进行本地集成调试。用ROLL一键拉起ROCK Sandbox,跑通整个端到端链路。从发指令到收反馈,全流程“所见即所得”,不需要去集群上排队等待。

等一切就绪,便能直接云端规模化部署。配置都不用改,ROCK帮你屏蔽掉底层的复杂度,自动扩展到成千上万个实例。

这样就能够杜绝“在我电脑上能跑,上去就挂”的玄学问题。

对于动辄运行数小时甚至数天的Agent训练任务而言,环境的稳定性也至关重要。

在这方面,ROCK也是按阿里内部核心基础设施的标准来的。

故障隔离做得非常死,每个Sandbox都关在自己的笼子里,一个崩了绝不会连累邻居,更不会拖垮整个服务。

资源调度也非常精细,消除了“吵闹邻居”带来的资源争抢。环境性能稳定了,采集的数据质量才高,模型收敛才能稳。

状态管理则主打一个快,环境挂了秒级拉起重置,保证训练流水线不中断。

ModelService,解耦的神来之笔

在Agentic AI的开发与训练中,开发者长期面临一个棘手的矛盾。

Agent自己有一套业务逻辑(比如怎么拼Prompt,怎么管理对话历史),而训练框架为了介入训练,又难免会插手这个过程。

以前的笨办法是,训练框架把Agent的逻辑重写一遍。结果就是两边代码打架,Agent一改逻辑,训练代码就得跟着改,维护过程极其繁琐。

ROCK用ModelService做了一个“中间人”,完美实现了解耦

ModelService本质上是一个部署在ROCK内部的智能模型代理。它通过“提问-拦截-回答”三步,让Agent和ROLL各司其职,完美协同。

  • 提问:Agent在Sandbox里,按自己的逻辑拼好Prompt,发起调用;

  • 拦截:ModelService把这个请求拦下来,它不直接调大模型,而是把这个“原汁原味”的Prompt通过反向通道传递给外面的ROLL;

  • 回答:ROLL拿到了Prompt,也就拿到了思考过程的控制权。它通过中心化的推理服务,算奖励、做优化,最后返回答案。

这一招至少带来了四个好处:

  • 彻底解耦:Agent只管问,ROLL只管答。两边代码互不干扰;

  • 控制权在手:ROLL虽然不干涉Prompt怎么生成的,但它掌握了最终的Prompt,依然握着训练的主动权;

  • 节约成本:将昂贵的GPU资源集中用于ROLL的中心推理服务,ROCK Sandbox在低成本的CPU实例上大规模运行,极大降低了训练成本;

  • 兼容性强:这种架构天然开放,解耦的设计具有天然的泛化能力,能够轻松支持任何自定义逻辑的Agent。

ModelService让ROCK不仅仅是个执行环境,更是一个懂训练的智能基础设施。

推开Agentic AI规模化应用的大门

随着ROCK的开源,阿里在Agentic AI训练领域的版图终于拼完了。

ROLL提供强大的训练引擎,ROCK则注入源源不断的环境燃料。

这套组合从根本上解决了Agentic模型训练中的两大核心挑战——高效的学习算法和可规模化的环境服务。

现在,通过ROCK,开发者拥有了一套标准化的解法:

  • 弹性扩展:从1到10K,分钟级拉起海量环境;

  • 无缝衔接:本地代码直接上云,开发生产一气呵成;

  • 极致稳定:故障隔离,快速恢复,性能可预期;

  • 架构革新:ModelService让业务逻辑和训练框架彻底分手。

ROCK与ROLL的协同,让Agentic模型训练不再是少数顶尖团队的黑科技,而是变成了一套每个开发者都能上手的标准工业流程。

ROCK正式开源,并将持续更新,诚邀您加入这场AI革命。

不管你是想发顶会paper的研究员,还是想给公司搭自动化系统的架构师,或者是想自己搓个Agent玩玩的技术宅,ROCK都会是你绕不开的基础设施。

感兴趣的话,项目地址我们已经替大家找好了:https://github.com/alibaba/ROCK
https://github.com/alibaba/ROLL

快速开始文档:5分钟完成首个Agent训练
https://alibaba.github.io/ROCK/docs/Getting%20Started/rockroll/
点击“阅读原文”可了解更多详情。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值