本文来源公众号“量子位”,仅用于学术分享,侵权删,干货满满。
原文链接:https://mp.weixin.qq.com/s/yX-0TBFWPCIJES17aJnXrA
智能体终于拥有了可以海量复制的“实战演练场”。
阿里此次开源的新项目ROCK,解决了无法在真实环境中规模化训练的难题。
有了ROCK,开发者想要训练AI执行复杂任务时可以不再“手搓”环境,直接进行标准化的一键部署。
它与阿里此前的RL训练框架ROLL形成了绝妙配合——
ROLL负责教AI怎么思考(训练算法),ROCK负责提供AI练习的场所(环境沙箱)。

两者协同作战,构成了完整的智能体训练闭环。
这套组合打通了智能体训练的链路,让开发者不再被底层基建困扰,实现从单机实验到集群大规模训练的跨越,推开了Agentic AI规模化应用的大门。
环境服务,智能体进化的缺失一环
当下大语言模型正在经历一场深刻的范式转变,最前沿的模型已经进化为能够与外部环境深度交互的Agentic模型。
这种演化不仅仅是技术上的进步,更代表了AI应用场景的根本性扩展。当前几乎所有的SOTA级模型都具备了多轮交互能力,能够通过工具调用、代码执行、外部API调用等方式与环境进行交互。
简单说就是,模型只是“能说”已经无法满足需求,现在还要会做,它们需要调用工具、跑代码、调API,跟外部环境真刀真枪地交互。
从业务价值角度来看,这一转变意义重大。许多企业的自动化链路需要的不仅仅是文本建议或分析报告,而是能够直接执行的动作。
不过要训练好这样的Agent,光有聪明的大模型大脑只是基础,后续还需要对模型进行训练,让模型学会在特定任务环境中规划并执行正确的决策序列。
这是一个系统工程,得凑齐四块拼图:大脑(LLM)、考卷(任务描述)、教练(RL框架),以及最容易被忽视的一块——训练场(环境服务)。
很多从业者面临的困境,往往就和这个“训练场”有关。
如果把RL框架比作发动机,那么训练环境就是燃料。对于Agentic模型而言,环境服务的稳定性和效率直接决定了模型的Scaling潜力,也就是能否通过大规模交互数据持续突破性能瓶颈。
一个高效稳定的环境服务需要同时处理数千乃至数万训练实例,需要毫秒级的快速反馈,需要可靠地维护、回溯和重置环境状态,还需要适配多样化任务类型与复杂度。
环境服务的性能瓶颈往往直接成为整个训练流程的“卡脖子”问题。
为突破这一制约,开发者需要双轨并行——既要构建高度可定制化与高性能的强化学习训练框架,也要建立高效稳定、弹性伸缩的环境管理运行体系,两者协同才能释放Agentic模型的真正潜力。
ROLL框架,高性能的驱动引擎
ROLL基于Ray构建,专门为了大规模LLM强化学习打造,覆盖从小规模预研到数千卡百亿参数生产环境的完整RL优化流程。
ROLL提供了丰富的功能特性,涵盖了强化学习训练的各个方面——
-
支持数学、代码、推理等多领域任务联合训练;
-
原生支持Agentic RL,灵活适配游戏、多轮对话、工具调用、CodeAgent等多步决策场景;
-
深度集成Megatron-Core、Deepspeed等主流框架,支持先进的5D并行策略;
-
具备样本级生成管理、异步推理、异步训练加速等核心机制。
为了让Agent训练得更快,ROLL专门搞了环境异步交互和冗余采样。而且,它用了一套非常简洁的标准接口——GEM。
ROLL采用GEM通过极简的env.reset和env.step两个核心方法,大幅简化了Agentic RL的交互过程。
这种简洁的设计使得任何新的业务应用都能快速适配,无需复杂的接口转换。
环境开发者只需实现标准的reset/step方法,即可无缝接入ROLL的训练体系,实现从简单游戏到复杂工具调用等各类Agentic任务的统一管理。
ROLL作为驱动引擎,在Agentic RL训练过程中的Scaling能力对环境服务提出了极高的具体要求——
-
它能并发处理数万个实例,这就要求环境服务得扛得住这么大的吞吐量;
-
它有容错机制,这就要求环境得有足够的冗余;
-
它支持异步Rollout,这就要求环境拉起要快,生命周期管理要细。
现在,虽然训练引擎准备好了,但环境还没完善,就是在这个背景下,ROCK登场了。

打造智能体训练的标准化工厂
ROCK(Reinforcement Open Construction Kit),名字一听就很硬核。
智能体训练轻松实现规模化
它的核心使命就一个词——规模化。
一个聪明的Agent,其智能的广度与深度,取决于它所能探索世界的规模与多样性。
但传统训练里,复杂的环境太吃资源了,单机跑几个就满载,成为了限制Agent训练规模的硬性天花板。
ROCK的诞生,正是为了击碎这块天花板。
它的底座也是Ray,这让它能把一堆杂乱的计算集群,抽象成一个整齐划一、弹性伸缩的“环境资源池”。
以前你要配置一套集群环境,可能得折腾好几天。现在用ROCK,只需修改配置参数,就能在分钟级别内,自动调度和拉起成千上万个并行训练环境。
开发者不必再关心繁琐的节点管理和资源分配,可以完全聚焦于算法本身。
而且它还支持前所未有的训练灵活性,支持在同一集群中,同时运行同构(来自同一镜像)与异构(来自不同镜像)的环境。
这既满足了大规模重复探索的需求,也为提升Agent在网页浏览、代码编写等不同任务间的泛化能力提供了至关重要的保障。
告别环境“黑盒”
除了规模大,ROCK还解决了一个让开发者抓狂的问题——环境是个“黑盒”。
Agent跑着跑着动作变形了,到底是因为环境出bug了,还是Agent自身出现了问题?以前很难知道。
ROCK直接给开发者开了一个“上帝视角”——程序化的Bash交互能力。
它把Linux Shell的能力通过SDK和HTTP API开放了出来,让开发者可以像操作本地终端一样,与成百上千个远程Sandbox进行深度交互。
不论想查某个Sandbox里的文件,还是查看实时日志或者进程状态,甚至想动态改动环境变量都没问题。
这种调试体验,既保留了单机开发的直观,又实现了分布式的规模。
灵活部署与企业级稳定
为了打通开发和生产那“最后一公里”,ROCK还设计了一套“一次编写,随处运行”的方案。
在刚开始写代码的时候,你可以用本地独立运行模式。把它当个纯净的“环境实验室”,跑跑单元测试,验证下你的Chrome浏览器装没装好,文件系统能不能写。
这时候不需要启动庞大的训练流程,先确保环境本身是健康的。
代码写差不多了,就可以进行本地集成调试。用ROLL一键拉起ROCK Sandbox,跑通整个端到端链路。从发指令到收反馈,全流程“所见即所得”,不需要去集群上排队等待。
等一切就绪,便能直接云端规模化部署。配置都不用改,ROCK帮你屏蔽掉底层的复杂度,自动扩展到成千上万个实例。
这样就能够杜绝“在我电脑上能跑,上去就挂”的玄学问题。
对于动辄运行数小时甚至数天的Agent训练任务而言,环境的稳定性也至关重要。
在这方面,ROCK也是按阿里内部核心基础设施的标准来的。
故障隔离做得非常死,每个Sandbox都关在自己的笼子里,一个崩了绝不会连累邻居,更不会拖垮整个服务。
资源调度也非常精细,消除了“吵闹邻居”带来的资源争抢。环境性能稳定了,采集的数据质量才高,模型收敛才能稳。
状态管理则主打一个快,环境挂了秒级拉起重置,保证训练流水线不中断。
ModelService,解耦的神来之笔
在Agentic AI的开发与训练中,开发者长期面临一个棘手的矛盾。
Agent自己有一套业务逻辑(比如怎么拼Prompt,怎么管理对话历史),而训练框架为了介入训练,又难免会插手这个过程。
以前的笨办法是,训练框架把Agent的逻辑重写一遍。结果就是两边代码打架,Agent一改逻辑,训练代码就得跟着改,维护过程极其繁琐。
ROCK用ModelService做了一个“中间人”,完美实现了解耦。
ModelService本质上是一个部署在ROCK内部的智能模型代理。它通过“提问-拦截-回答”三步,让Agent和ROLL各司其职,完美协同。
-
提问:Agent在Sandbox里,按自己的逻辑拼好Prompt,发起调用;
-
拦截:ModelService把这个请求拦下来,它不直接调大模型,而是把这个“原汁原味”的Prompt通过反向通道传递给外面的ROLL;
-
回答:ROLL拿到了Prompt,也就拿到了思考过程的控制权。它通过中心化的推理服务,算奖励、做优化,最后返回答案。
这一招至少带来了四个好处:
-
彻底解耦:Agent只管问,ROLL只管答。两边代码互不干扰;
-
控制权在手:ROLL虽然不干涉Prompt怎么生成的,但它掌握了最终的Prompt,依然握着训练的主动权;
-
节约成本:将昂贵的GPU资源集中用于ROLL的中心推理服务,ROCK Sandbox在低成本的CPU实例上大规模运行,极大降低了训练成本;
-
兼容性强:这种架构天然开放,解耦的设计具有天然的泛化能力,能够轻松支持任何自定义逻辑的Agent。
ModelService让ROCK不仅仅是个执行环境,更是一个懂训练的智能基础设施。
推开Agentic AI规模化应用的大门
随着ROCK的开源,阿里在Agentic AI训练领域的版图终于拼完了。
ROLL提供强大的训练引擎,ROCK则注入源源不断的环境燃料。
这套组合从根本上解决了Agentic模型训练中的两大核心挑战——高效的学习算法和可规模化的环境服务。
现在,通过ROCK,开发者拥有了一套标准化的解法:
-
弹性扩展:从1到10K,分钟级拉起海量环境;
-
无缝衔接:本地代码直接上云,开发生产一气呵成;
-
极致稳定:故障隔离,快速恢复,性能可预期;
-
架构革新:ModelService让业务逻辑和训练框架彻底分手。
ROCK与ROLL的协同,让Agentic模型训练不再是少数顶尖团队的黑科技,而是变成了一套每个开发者都能上手的标准工业流程。
ROCK正式开源,并将持续更新,诚邀您加入这场AI革命。
不管你是想发顶会paper的研究员,还是想给公司搭自动化系统的架构师,或者是想自己搓个Agent玩玩的技术宅,ROCK都会是你绕不开的基础设施。
感兴趣的话,项目地址我们已经替大家找好了:https://github.com/alibaba/ROCK
https://github.com/alibaba/ROLL
快速开始文档:5分钟完成首个Agent训练
https://alibaba.github.io/ROCK/docs/Getting%20Started/rockroll/
THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。


被折叠的 条评论
为什么被折叠?



