量子位 | ROCK & ROLL！阿里给智能体造了个实战演练场

本文来源公众号“量子位”，仅用于学术分享，侵权删，干货满满。

原文链接：https://mp.weixin.qq.com/s/yX-0TBFWPCIJES17aJnXrA

智能体终于拥有了可以海量复制的“实战演练场”。

阿里此次开源的新项目ROCK，解决了无法在真实环境中规模化训练的难题。

有了ROCK，开发者想要训练AI执行复杂任务时可以不再“手搓”环境，直接进行标准化的一键部署。

它与阿里此前的RL训练框架ROLL形成了绝妙配合——

ROLL负责教AI怎么思考（训练算法），ROCK负责提供AI练习的场所（环境沙箱）。

两者协同作战，构成了完整的智能体训练闭环。

这套组合打通了智能体训练的链路，让开发者不再被底层基建困扰，实现从单机实验到集群大规模训练的跨越，推开了Agentic AI规模化应用的大门。

环境服务，智能体进化的缺失一环

当下大语言模型正在经历一场深刻的范式转变，最前沿的模型已经进化为能够与外部环境深度交互的Agentic模型。

这种演化不仅仅是技术上的进步，更代表了AI应用场景的根本性扩展。当前几乎所有的SOTA级模型都具备了多轮交互能力，能够通过工具调用、代码执行、外部API调用等方式与环境进行交互。

简单说就是，模型只是“能说”已经无法满足需求，现在还要会做，它们需要调用工具、跑代码、调API，跟外部环境真刀真枪地交互。

从业务价值角度来看，这一转变意义重大。许多企业的自动化链路需要的不仅仅是文本建议或分析报告，而是能够直接执行的动作。

不过要训练好这样的Agent，光有聪明的大模型大脑只是基础，后续还需要对模型进行训练，让模型学会在特定任务环境中规划并执行正确的决策序列。

这是一个系统工程，得凑齐四块拼图：大脑（LLM）、考卷（任务描述）、教练（RL框架），以及最容易被忽视的一块——训练场（环境服务）。

很多从业者面临的困境，往往就和这个“训练场”有关。

如果把RL框架比作发动机，那么训练环境就是燃料。对于Agentic模型而言，环境服务的稳定性和效率直接决定了模型的Scaling潜力，也就是能否通过大规模交互数据持续突破性能瓶颈。

一个高效稳定的环境服务需要同时处理数千乃至数万训练实例，需要毫秒级的快速反馈，需要可靠地维护、回溯和重置环境状态，还需要适配多样化任务类型与复杂度。

环境服务的性能瓶颈往往直接成为整个训练流程的“卡脖子”问题。

为突破这一制约，开发者需要双轨并行——既要构建高度可定制化与高性能的强化学习训练框架，也要建立高效稳定、弹性伸缩的环境管理运行体系，两者协同才能释放Agentic模型的真正潜力。

ROLL框架，高性能的驱动引擎

ROLL基于Ray构建，专门为了大规模LLM强化学习打造，覆盖从小规模预研到数千卡百亿参数生产环境的完整RL优化流程。

ROLL提供了丰富的功能特性，涵盖了强化学习训练的各个方面——

支持数学、代码、推理等多领域任务联合训练；
原生支持Agentic RL，灵活适配游戏、多轮对话、工具调用、CodeAgent等多步决策场景；
深度集成Megatron-Core、Deepspeed等主流框架，支持先进的5D并行策略；
具备样本级生成管理、异步推理、异步训练加速等核心机制。

为了让Agent训练得更快，ROLL专门搞了环境异步交互和冗余采样。而且，它用了一套非常简洁的标准接口——GEM。

ROLL采用GEM通过极简的env.reset和env.step两个核心方法，大幅简化了Agentic RL的交互过程。

这种简洁的设计使得任何新的业务应用都能快速适配，无需复杂的接口转换。

环境开发者只需实现标准的reset/step方法，即可无缝接入ROLL的训练体系，实现从简单游戏到复杂工具调用等各类Agentic任务的统一管理。

ROLL作为驱动引擎，在Agentic RL训练过程中的Scaling能力对环境服务提出了极高的具体要求——

它能并发处理数万个实例，这就要求环境服务得扛得住这么大的吞吐量；
它有容错机制，这就要求环境得有足够的冗余；
它支持异步Rollout，这就要求环境拉起要快，生命周期管理要细。

现在，虽然训练引擎准备好了，但环境还没完善，就是在这个背景下，ROCK登场了。

打造智能体训练的标准化工厂

ROCK（Reinforcement Open Construction Kit），名字一听就很硬核。

智能体训练轻松实现规模化

它的核心使命就一个词——规模化。

一个聪明的Agent，其智能的广度与深度，取决于它所能探索世界的规模与多样性。

但传统训练里，复杂的环境太吃资源了，单机跑几个就满载，成为了限制Agent训练规模的硬性天花板。

ROCK的诞生，正是为了击碎这块天花板。

它的底座也是Ray，这让它能把一堆杂乱的计算集群，抽象成一个整齐划一、弹性伸缩的“环境资源池”。

以前你要配置一套集群环境，可能得折腾好几天。现在用ROCK，只需修改配置参数，就能在分钟级别内，自动调度和拉起成千上万个并行训练环境。

开发者不必再关心繁琐的节点管理和资源分配，可以完全聚焦于算法本身。

而且它还支持前所未有的训练灵活性，支持在同一集群中，同时运行同构（来自同一镜像）与异构（来自不同镜像）的环境。

这既满足了大规模重复探索的需求，也为提升Agent在网页浏览、代码编写等不同任务间的泛化能力提供了至关重要的保障。

告别环境“黑盒”

除了规模大，ROCK还解决了一个让开发者抓狂的问题——环境是个“黑盒”。

Agent跑着跑着动作变形了，到底是因为环境出bug了，还是Agent自身出现了问题？以前很难知道。

ROCK直接给开发者开了一个“上帝视角”——程序化的Bash交互能力。

它把Linux Shell的能力通过SDK和HTTP API开放了出来，让开发者可以像操作本地终端一样，与成百上千个远程Sandbox进行深度交互。

不论想查某个Sandbox里的文件，还是查看实时日志或者进程状态，甚至想动态改动环境变量都没问题。

这种调试体验，既保留了单机开发的直观，又实现了分布式的规模。

灵活部署与企业级稳定

为了打通开发和生产那“最后一公里”，ROCK还设计了一套“一次编写，随处运行”的方案。

在刚开始写代码的时候，你可以用本地独立运行模式。把它当个纯净的“环境实验室”，跑跑单元测试，验证下你的Chrome浏览器装没装好，文件系统能不能写。

这时候不需要启动庞大的训练流程，先确保环境本身是健康的。

代码写差不多了，就可以进行本地集成调试。用ROLL一键拉起ROCK Sandbox，跑通整个端到端链路。从发指令到收反馈，全流程“所见即所得”，不需要去集群上排队等待。

等一切就绪，便能直接云端规模化部署。配置都不用改，ROCK帮你屏蔽掉底层的复杂度，自动扩展到成千上万个实例。

这样就能够杜绝“在我电脑上能跑，上去就挂”的玄学问题。

对于动辄运行数小时甚至数天的Agent训练任务而言，环境的稳定性也至关重要。

在这方面，ROCK也是按阿里内部核心基础设施的标准来的。

故障隔离做得非常死，每个Sandbox都关在自己的笼子里，一个崩了绝不会连累邻居，更不会拖垮整个服务。

资源调度也非常精细，消除了“吵闹邻居”带来的资源争抢。环境性能稳定了，采集的数据质量才高，模型收敛才能稳。

状态管理则主打一个快，环境挂了秒级拉起重置，保证训练流水线不中断。

ModelService，解耦的神来之笔

在Agentic AI的开发与训练中，开发者长期面临一个棘手的矛盾。

Agent自己有一套业务逻辑（比如怎么拼Prompt，怎么管理对话历史），而训练框架为了介入训练，又难免会插手这个过程。

以前的笨办法是，训练框架把Agent的逻辑重写一遍。结果就是两边代码打架，Agent一改逻辑，训练代码就得跟着改，维护过程极其繁琐。

ROCK用ModelService做了一个“中间人”，完美实现了解耦。

ModelService本质上是一个部署在ROCK内部的智能模型代理。它通过“提问-拦截-回答”三步，让Agent和ROLL各司其职，完美协同。

提问：Agent在Sandbox里，按自己的逻辑拼好Prompt，发起调用；
拦截：ModelService把这个请求拦下来，它不直接调大模型，而是把这个“原汁原味”的Prompt通过反向通道传递给外面的ROLL；
回答：ROLL拿到了Prompt，也就拿到了思考过程的控制权。它通过中心化的推理服务，算奖励、做优化，最后返回答案。

这一招至少带来了四个好处：

彻底解耦：Agent只管问，ROLL只管答。两边代码互不干扰；
控制权在手：ROLL虽然不干涉Prompt怎么生成的，但它掌握了最终的Prompt，依然握着训练的主动权；
节约成本：将昂贵的GPU资源集中用于ROLL的中心推理服务，ROCK Sandbox在低成本的CPU实例上大规模运行，极大降低了训练成本；
兼容性强：这种架构天然开放，解耦的设计具有天然的泛化能力，能够轻松支持任何自定义逻辑的Agent。

ModelService让ROCK不仅仅是个执行环境，更是一个懂训练的智能基础设施。

推开Agentic AI规模化应用的大门

随着ROCK的开源，阿里在Agentic AI训练领域的版图终于拼完了。

ROLL提供强大的训练引擎，ROCK则注入源源不断的环境燃料。

这套组合从根本上解决了Agentic模型训练中的两大核心挑战——高效的学习算法和可规模化的环境服务。

现在，通过ROCK，开发者拥有了一套标准化的解法：

弹性扩展：从1到10K，分钟级拉起海量环境；
无缝衔接：本地代码直接上云，开发生产一气呵成；
极致稳定：故障隔离，快速恢复，性能可预期；
架构革新：ModelService让业务逻辑和训练框架彻底分手。

ROCK与ROLL的协同，让Agentic模型训练不再是少数顶尖团队的黑科技，而是变成了一套每个开发者都能上手的标准工业流程。

ROCK正式开源，并将持续更新，诚邀您加入这场AI革命。

不管你是想发顶会paper的研究员，还是想给公司搭自动化系统的架构师，或者是想自己搓个Agent玩玩的技术宅，ROCK都会是你绕不开的基础设施。

感兴趣的话，项目地址我们已经替大家找好了：https://github.com/alibaba/ROCK
https://github.com/alibaba/ROLL

快速开始文档：5分钟完成首个Agent训练
https://alibaba.github.io/ROCK/docs/Getting%20Started/rockroll/

THE END !

文章结束，感谢阅读。您的点赞，收藏，评论是我继续更新的动力。大家有推荐的公众号可以评论区留言，共同学习，一起进步。