【ICRA 2025必读】iRe-VLA白皮书:一篇讲透如何终结机器人训练崩溃!

今天和大家聊一篇非常有意思的机器人学习领域的文章,来自清华大学、加州大学伯克利分校和上海期智研究院的学者们。他们提出了一种名为 iRe-VLA 的新方法,旨在解决一个很棘手的问题:如何稳定、高效地使用强化学习(Reinforcement Learning, RL)来微调大型的视觉-语言-动作(Vision-Language-Action, VLA)模型。

简单来说,VLA模型是当前机器人领域的热点,它能理解人类的语言指令,并根据看到的场景直接输出控制动作。但想让它通过与环境的真实互动(也就是强化学习)来提升自己,却常常会“翻车”——训练过程极其不稳定,模型性能说崩就崩。这篇论文提出的 iRe-VLA 就像一个“稳定器”,让这个学习过程变得平滑又高效。

一、研究动机:为何VLA与RL“八字不合”?

大家知道,现在的大模型(LLMs)训练流程通常是“监督微调(SFT)+ 强化学习(RL)”。研究者们很自然地想把这套流程搬到机器人领域,用在VLA模型上。先用专家数据进行SFT,让模型有个基础能力,再让它在真实环境中通过RL自我探索、提升。

理想很丰满,现实却很骨感。如上图所示,直接对庞大的VLA模型使用在线强化学习,会导致性能急剧下降,训练过程非常不稳定。这主要是因为VLA模型参数量巨大(动辄数十亿),在线RL带来的高方差梯度更新很容易破坏模型内部已经学好的知识表示,导致“灾难性遗忘”。此外,完整微调这么大的模型,对计算资源的要求也极高,普通实验室的本地机器根本扛不住。

面对这个困境,作者们提出了一个问题:我们能否设计一种新的训练框架,既能利用RL的探索优势,又能保持大模型训练的稳定性呢?

二、核心方法:iRe-VLA的“两步走”策略

为了解决上述问题,作者提出了 iRe-VLA,一个迭代式的强化学习框架。它的核心思想非常巧妙,就是将“探索”和“学习”两个阶段解耦,通过迭代循环,稳步提升模型能力。

整个流程如上图所示,主要包含两个交替进行的阶段:

阶段一:带“锁”探索 (Online RL with Frozen VLM)

在这个阶段,机器人与环境互动,尝试完成新任务。最关键的操作是:冻结(freeze)VLA模型中庞大的视觉语言模型(VLM)主干,只训练那个相对轻量的“动作头”(action head)。

  • 输入: 机器人当前的环境观测(图像)和任务指令(文本)。
  • 输出: 机器人执行的低层级动作。
  • 过程: VLM主干负责理解图像和指令,生成高级别的表示。冻结的VLM保证了这些核心知识在探索过程中不被破坏。轻量的动作头则根据这些表示快速试错和学习,找到完成任务的方法。因为只训练一小部分参数,所以训练过程非常稳定,且计算开销小,甚至可以在本地机器上完成。

阶段二:监督“吸收” (Supervised Learning)

在第一阶段收集到一些成功的“经验”(即完成任务的轨迹)后,就进入第二阶段。在这个阶段,研究者会解冻整个VLA模型,使用所有成功的经验(包括新收集的和最初的专家数据)来对模型进行一次全面的监督学习(Supervised Learning, SL)。

  • 输入: 所有成功完成任务的(观测、指令、动作)数据对。
  • 输出: 一个更新后的、能力更强的VLA模型。
  • 过程: 这种方式就像是让模型“复盘”所有成功案例,将探索阶段学到的新技能内化到整个模型中。由于监督学习的稳定性远高于强化学习,因此可以安全地更新整个模型的参数,充分利用大模型的表达能力,而不会导致性能崩溃。

通过在这两个阶段之间不断迭代,iRe-VLA让VLA模型既能稳定地探索新任务,又能有效地吸收新知识,从而实现能力的持续提升和泛化。

三、实验效果:稳定、高效、更通用

作者在MetaWorld、Franka-Kitchen等仿真环境以及真实世界的机械臂上进行了充分的实验,验证了iRe-VLA的有效性。

实验设置涵盖了三类任务:专家数据集里见过的任务、需要通过RL学习的新任务,以及从未见过的泛化任务。

上图的RL训练曲线清晰地展示了iRe-VLA的优势。橙色线代表传统的、完全微调VLA模型的RL方法,可以看到其性能波动巨大,甚至在多个任务中彻底崩溃。而蓝色线代表的iRe-VLA(Freeze VLM)则表现出平稳的性能提升。

核心实验结果(见下表)表明:

  • 性能全面提升: 相比于基线方法(SFT Policy)和标准RL方法(PPO-Replay),iRe-VLA在已见任务、新RL任务和未见泛化任务上都取得了显著的性能提升。例如,在Metaworld的10个未见任务上,成功率从 51%提升到了80%。在Franka-kitchen的left-door-open任务上,成功率更是从 43%跃升至83%
  • 稳定性强: 标准RL方法(PPO-Replay)在学习新任务时,对旧任务的性能造成了严重破坏(例如在Metaworld的25个原始任务上,性能从0.83掉到0.69),出现了灾难性遗忘。而iRe-VLA则很好地保持了原有能力。
  • 真实世界验证: 在真实的Panda机械臂上,iRe-VLA同样表现出色。例如,在拾取胡萝卜或茄子等不规则物体的任务中,成功率从 35%提升到了80%,同时对未见物体的泛化拾取能力也从 37%提升至61%。![外链图片

此外,消融实验也证明了iRe-VLA设计的必要性。如果一直冻结VLM(即去掉第二阶段的监督学习),模型性能会受限,说明让整个模型参与学习是提升能力上限的关键。

四、总结

VLer觉得,iRe-VLA提出的这种“冻结探索-全面吸收”的迭代思路,为大模型在机器人等需要与环境持续交互的领域中的应用,提供了一个非常实用且高效的范式。它巧妙地平衡了强化学习的探索能力和监督学习的稳定性,解决了当前VLA模型在线学习的一大痛点。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包

  • ✅ 从零到一的 AI 学习路径图
  • ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
  • ✅ 百度/阿里专家闭门录播课
  • ✅ 大模型当下最新行业报告
  • ✅ 真实大厂面试真题
  • ✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ,朋友们如果有需要 《AI大模型入门+进阶学习资源包》下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

图片

以上资料如何领取?

在这里插入图片描述

为什么大家都在学大模型?

最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

图片

不出1年,“有AI项目经验”将成为投递简历的门槛。

风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
在这里插入图片描述
在这里插入图片描述

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
在这里插入图片描述
在这里插入图片描述

以上全套大模型资料如何领取?

在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值