对VLA的RL最新进展的梳理~

自动驾驶之心

于 2025-06-18 07:30:44 发布

阅读量133

点赞数

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247668294&idx=3&sn=201e1a575aa4a635f748e7c75a0774bb&chksm=cff540fd326a4669d916ecad00dc34b2a5a20de7ca203610c23e4fa1a49b70b68cb9bfaeb997&scene=126&sessionid=0

作者 | 瀑风编辑 | 自动驾驶之心

原文链接：https://zhuanlan.zhihu.com/p/1916810989434807458

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『VLM』技术交流群

本文只做学术分享，如有侵权，联系删文

2025年5月，VLA的RL领域掀起了一股热潮，不仅传统的PPO、GRPO、DPO等算法纷纷被移用到VLA上，而且各种针对VLA特殊性的创新tricks层出不穷。本文将梳理VLA领域RL算法的来龙去脉。

早期探索：iRe-VLA

（Improving Vision-Language-Action Model with Online Reinforcement Learning）

★
https://arxiv.org/pdf/2501.16664
arxiv.org/pdf/2501.16664

这篇文章的核心算法是PPO，并且针对在线强化学习不稳定的问题提出了双阶段的训练范式：

第0步：用专家数据集进行监督学习；
第1步：冻结VLM backbone，进行online RL；
第2步：将第0步的数据集与第1步中采样到的成功轨迹混合，进行监督学习；
第1步与第2步反复迭代。

具体实现上，此文没有采用已有的VLA模型结构，而是将BLIP-2 3B用于VLM backbone，把它最后的全连接层替换为一个action head，包含一个token learner和一个MLP。训练中采用LoRA以节省显存。实验环境采用Meatworld和Franka Kitchen仿真环境以及real-world panda manipulation。这些任务都被分成三份：在监督学习阶段就进行训练的、在在线RL阶段训练的和不进行训练的未见过的新任务，使得我们可以分别评估算法效果。

最终的实验结果表现不错，消融实验说明阶段2不冻结VLM效果更好。

偏好对齐：GRAPE

（GRAPE: Generalizing Robot Policy via Preference Alignment）

★
https://arxiv.org/abs/2411.19309
arxiv.org/abs/2411.19309

GRAPE这篇文章的核心思路是将DPO代表的偏好对齐引入VLA训练，精心针对VLA的特点设计偏好。此文在轨迹level进行偏好对齐，每条轨迹的奖励设计为三部分的和：

是否成功奖励（成功是1，失败是0）；
自我奖励（模型自己生成轨迹的概率大小对数）；
外部奖励（使用自设的cost函数评估，下面详解流程）

计算轨迹cost首先需要把轨迹输入到一个VLM任务分解器中，把一条轨迹分解为若干阶段。然后再用一个VLM提取每一个阶段中的关键点表示，然后将阶段和关键点表示外加想让cost函数达到的对齐目标同时输入GPT-4o生成cost函数。之后用这些cost函数分别评估轨迹的每一阶段，使用指数衰减聚合给出总的cost，定义为外部奖励

实验上主要在Simpler-Env和LIBERO环境中，使用open-VLA和它的原始检查点、SFT、每一step level的DPO以及Octo的SFT对比，超过了它们的表现。

LOOP：RIPT-VLA

（Interactive Post-Training for Vision-Language-Action Models）

★
https://arxiv.org/pdf/2505.17016
arxiv.org/pdf/2505.17016

简单来说LOOP就是RLOO+PPO：在 稀疏奖励 + 长时间序列 + 多任务不平衡 场景中critic模型不好训，就采用留一法（RLOO）估计优势；然后在用PPO的clip算出loss进行优化。因此，在线采样中同一个context需要rollout多次。RIPT-VLA主要是采用LOOP算法的online RL，给出了开源代码。

此外还加了哪些trick呢？

动态拒绝机制：如果某个上下文 c 下的所有 K 个 rollouts 的奖励完全一致（都成功或都失败），则跳过这个任务，提升梯度有效性；
多任务场景群体采样：在 batch 中，分组采样多个 context，每个 context 对应 K 个 rollouts，相当于：从 multi-task context dataset 中选 B/K 个任务，每个任务采样 K 条轨迹，提高样本多样性，缓解 task imbalance；
部分off policy优化：每个 rollout 用多次（N>1）：可视作轻度 off-policy，提高样本利用率。

全面对比：rlvla

（What Can RL Bring to VLA Generalization? An Empirical Study）

★
https://arxiv.org/pdf/2505.19789
arxiv.org/pdf/2505.19789

这篇文章在VLA上实现了各种RL或类RL算法及一些变种：PPO、GRPO、DPO、PPO-ORZ（不用GAE）、GRPOs（一组采样轨迹从同一初始状态开始）。最终发现PPO表现最好，以其为代表与SFT进行比较，发现优于SFT。具体来说，实验精心设计了in-domain的场景和三种out of domain的场景：vision、semantics、execution，发现RL优于SFT。给出了开源代码。

系统与算法的双重创新：RL4VLA

（VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning）

★
https://arxiv.org/pdf/2505.18719
arxiv.org/pdf/2505.18719

这篇文章在算法上主要把自回归的VLA动作生成过程建模为一个多模态多轮对话过程，从而进行PPO训练。为了避免传统的机器人RL训练中稀疏的二元奖励带来的问题，作者决定给训练轨迹中划分一些稠密的伪奖励，来指示当前状态/动作序列片段朝着任务完成的有效进展程度，从而用它们训练一个专门的奖励模型（Robotic Process Reward Model）。具体划分方法是：

搜集多样化成功轨迹，按照夹爪开合度的显著变化夹爪分解成一系列子任务，因为夹爪的开闭往往标志着关键步骤的开始或结束（如抓取物体、释放物体）；
在每个子任务片段内部，进一步识别末端执行器速度接近零的时刻（关键帧），这些时刻通常对应着稳定状态（如物体被抓稳、物体接触到目标表面）或精细动作的完成点（如精确对准、轻微接触），之后给导致这些关键帧动作序列分配一个正的伪奖励。逻辑是：成功到达这些关键帧表明该子任务取得了实质进展；

现在有了细粒度标注的稠密奖励轨迹数据集，训练的Robotic Process Reward Model的方法呼之欲出：最大化在有希望的动作序列上预测其组成Token的对数似然（Log-Likelihood），并且被伪奖励信号加权。最终的奖励信号选用Robotic Process Reward Model和真实动作完成奖励直接相加的和。

此外，本文在训练过程中也加了以下tricks：

自适应课程选择策略 (Curriculum Selection Strategy):

目标：提升样本效率和泛化能力。
方法：根据智能体当前在每个任务上的成功率 ( )，动态调整任务采样概率。公式使得：
- 成功率接近 50% 的任务获得最高采样优先级，代表智能体能力的 "前沿"，学习效率最高。
- 参数控制探索的程度。

价值网络预热 (Critic Warmup):

目标：解决训练初期价值网络（Critic）估计不准确导致策略更新被误导的问题，提高训练稳定性。
方法：在正式开始策略-价值联合优化（如PPO）之前：
- 使用模仿预训练好的策略收集初始轨迹数据。
- 用这些数据单独训练价值网络（Critic）若干轮次。
效果：让 Critic 在联合训练开始时就能提供相对可靠的价值估计，避免早期训练被错误信号误导。

GPU负载均衡的矢量化环境 (GPU-balanced Vectorized Environments):

目标：高效支持大规模并行环境仿真，解决 GPU 内存瓶颈。
方法：
- 将多个环境实例（矢量化环境）分布到不同的训练 GPU 上，每个 GPU 负责管理和交互其子集的环境。
- 使用 all_reduce操作，将所有 GPU 工作进程上的环境状态高效收集汇总，提供给中央推理引擎（用于 VLA 模型推理，生成动作）。
效果：平衡了多个环境渲染和交互带来的 GPU 内存和计算负载，支持更大规模的并行数据收集。

高效基础设施优化 (Infrastructure Optimizations):

目标：最大化内存利用和计算效率，支持大规模 VLA-RL 训练。
关键措施：
- 总 G 块 GPU。
- 专用 1 块 GPU 运行推理引擎，使用 vLLM 高效加速 VLA 模型的大批量推理。
- 剩余 G-1块 GPU 运行学习过程（策略、价值网络更新），使用 Ray 进行分布式协调。
- 模型精度：使用 bfloat16 存储模型参数和计算，显著减少内存占用。
- GPU 专业化分工：
- 推理引擎优化：在 vLLM 插件中实现 OpenVLA，替换原生 Hugging Face Transformers 生成函数，解决大批量推理时结果错误的问题。
- 分布式训练框架：使用 PyTorch FSDP (Fully Sharded Data Parallel) 管理分布式训练，有效支持超大模型参数的切分与同步。

启发与思考

双阶段训练范式成主流：监督预训练 + 在线RL微调是稳定训练VLA的基础框架（如iRe-VLA、RL4VLA）；
RL算法选择：目前PPO是训练主流，是否可以研究适合于VLA-RL新的RL算法（比如LOOP）；
稀疏奖励问题需多路径破解：一些解决方案是把轨迹划分成一些子任务分别打分形成稠密奖励，也可以精心设计不同目标对应的cost函数，然而更精准有效的奖励设计仍亟待探索；
提升样本有效性：由于VLA采样成本更高，提高学习的有效性更加重要，可以采取类似课程学习的思路增加有效性；
RL工程问题仍需解决：如何在VLA场景下解决采样效率低、在线采样显存开销大的工程问题还需下功夫破解；如何在非自回归的VLA结构上跑通RL也是一个具有挑战性和实际意义的问题；

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com