作者 | 瀑风 编辑 | 自动驾驶之心
原文链接:https://zhuanlan.zhihu.com/p/1916810989434807458
点击下方卡片,关注“自动驾驶之心”公众号
>>点击进入→自动驾驶之心『VLM』技术交流群
本文只做学术分享,如有侵权,联系删文
2025年5月,VLA的RL领域掀起了一股热潮,不仅传统的PPO、GRPO、DPO等算法纷纷被移用到VLA上,而且各种针对VLA特殊性的创新tricks层出不穷。本文将梳理VLA领域RL算法的来龙去脉。
早期探索:iRe-VLA
(Improving Vision-Language-Action Model with Online Reinforcement Learning)
★https://arxiv.org/pdf/2501.16664
arxiv.org/pdf/2501.16664

这篇文章的核心算法是PPO,并且针对在线强化学习不稳定的问题提出了双阶段的训练范式:
第0步:用专家数据集进行监督学习;
第1步:冻结VLM backbone,进行online RL;
第2步:将第0步的数据集与第1步中采样到的成功轨迹混合,进行监督学习;
第1步与第2步反复迭代。
具体实现上,此文没有采用已有的VLA模型结构,而是将BLIP-2 3B用于VLM backbone,把它最后的全连接层替换为一个action head,包含一个token learner和一个MLP。训练中采用LoRA以节省显存。实验环境采用Meatworld和Franka Kitchen仿真环境以及real-world panda manipulation。这些任务都被分成三份:在监督学习阶段就进行训练的、在在线RL阶段训练的和不进行训练的未见过的新任务,使得我们可以分别评估算法效果。

最终的实验结果表现不错,消融实验说明阶段2不冻结VLM效果更好。
偏好对齐:GRAPE
(GRAPE: Generalizing Robot Policy via Preference Alignment)
★https://arxiv.org/abs/2411.19309
arxiv.org/abs/2411.19309

GRAPE这篇文章的核心思路是将DPO代表的偏好对齐引入VLA训练,精心针对VLA的特点设计偏好。此文在轨迹level进行偏好对齐,每条轨迹的奖励设计为三部分的和:
是否成功奖励(成功是1,失败是0);
自我奖励(模型自己生成轨迹的概率大小对数);
外部奖励(使用自设的cost函数评估,下面详解流程)
计算轨迹cost首先需要把轨迹输入到一个VLM任务分解器中,把一条轨迹分解为若干阶段。然后再用一个VLM提取每一个阶段中的关键点表示,然后将阶段和关键点表示外加想让cost函数达到的对齐目标同时输入GPT-4o生成cost函数。之后用这些cost函数分别评估轨迹的每一阶段,使用指数衰减聚合给出总的cost,定义为外部奖励

实验上主要在Simpler-Env和LIBERO环境中,使用open-VLA和它的原始检查点、SFT、每一step level的DPO以及Octo的SFT对比,超过了它们的表现。
LOOP:RIPT-VLA
(Interactive Post-Training for Vision-Language-Action Models)
★https://arxiv.org/pdf/2505.17016
arxiv.org/pdf/2505.17016

简单来说LOOP就是RLOO+PPO:在 稀疏奖励 + 长时间序列 + 多任务不平衡 场景中critic模型不好训,就采用留一法(RLOO)估计优势;然后在用PPO的clip算出loss进行优化。因此,在线采样中同一个context需要rollout多次。RIPT-VLA主要是采用LOOP算法的online RL,给出了开源代码。

此外还加了哪些trick呢?
动态拒绝机制:如果某个上下文 c 下的所有 K 个 rollouts 的奖励完全一致(都成功或都失败),则跳过这个任务,提升梯度有效性;
多任务场景群体采样:在 batch 中,分组采样多个 context,每个 context 对应 K 个 rollouts,相当于:从 multi-task context dataset 中选 B/K 个任务,每个任务采样 K 条轨迹,提高样本多样性,缓解 task imbalance;
部分off policy优化:每个 rollout 用多次(N>1):可视作轻度 off-policy,提高样本利用率。
全面对比:rlvla
(What Can RL Bring to VLA Generalization? An Empirical Study)
★https://arxiv.org/pdf/2505.19789
arxiv.org/pdf/2505.19789

这篇文章在VLA上实现了各种RL或类RL算法及一些变种:PPO、GRPO、DPO、PPO-ORZ(不用GAE)、GRPOs(一组采样轨迹从同一初始状态开始)。最终发现PPO表现最好,以其为代表与SFT进行比较,发现优于SFT。具体来说,实验精心设计了in-domain的场景和三种out of domain的场景:vision、semantics、execution,发现RL优于SFT。给出了开源代码。
系统与算法的双重创新:RL4VLA
(VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning)
★https://arxiv.org/pdf/2505.18719
arxiv.org/pdf/2505.18719

这篇文章在算法上主要把自回归的VLA动作生成过程建模为一个多模态多轮对话过程,从而进行PPO训练。为了避免传统的机器人RL训练中稀疏的二元奖励带来的问题,作者决定给训练轨迹中划分一些稠密的伪奖励,来指示当前状态/动作序列片段朝着任务完成的有效进展程度,从而用它们训练一个专门的奖励模型(Robotic Process Reward Model)。具体划分方法是:
搜集多样化成功轨迹,按照夹爪开合度的显著变化夹爪分解成一系列子任务,因为夹爪的开闭往往标志着关键步骤的开始或结束(如抓取物体、释放物体);
在每个子任务片段内部,进一步识别末端执行器速度接近零的时刻(关键帧),这些时刻通常对应着稳定状态(如物体被抓稳、物体接触到目标表面)或精细动作的完成点(如精确对准、轻微接触),之后给导致这些关键帧动作序列分配一个正的伪奖励。逻辑是:成功到达这些关键帧表明该子任务取得了实质进展;
现在有了细粒度标注的稠密奖励轨迹数据集,训练的Robotic Process Reward Model的方法呼之欲出:最大化在有希望的动作序列上预测其组成Token的对数似然(Log-Likelihood),并且被伪奖励信号加权。最终的奖励信号选用Robotic Process Reward Model和真实动作完成奖励直接相加的和。
此外,本文在训练过程中也加了以下tricks:
自适应课程选择策略 (Curriculum Selection Strategy):
目标: 提升样本效率和泛化能力。
方法:根据智能体当前在每个任务上的成功率 ( ),动态调整任务采样概率。公式 使得:
成功率接近 50% 的任务获得最高采样优先级,代表智能体能力的 "前沿",学习效率最高。
参数 控制探索的程度。
价值网络预热 (Critic Warmup):
目标: 解决训练初期价值网络(Critic)估计不准确导致策略更新被误导的问题,提高训练稳定性。
方法: 在正式开始策略-价值联合优化(如PPO)之前:
使用模仿预训练好的策略收集初始轨迹数据。
用这些数据单独训练价值网络(Critic)若干轮次。
效果: 让 Critic 在联合训练开始时就能提供相对可靠的价值估计,避免早期训练被错误信号误导。
GPU负载均衡的矢量化环境 (GPU-balanced Vectorized Environments):
目标: 高效支持大规模并行环境仿真,解决 GPU 内存瓶颈。
方法:
将多个环境实例(矢量化环境)分布到不同的训练 GPU 上,每个 GPU 负责管理和交互其子集的环境。
使用 all_reduce操作,将所有 GPU 工作进程上的环境状态高效收集汇总,提供给中央推理引擎(用于 VLA 模型推理,生成动作)。
效果: 平衡了多个环境渲染和交互带来的 GPU 内存和计算负载,支持更大规模的并行数据收集。
高效基础设施优化 (Infrastructure Optimizations):
目标: 最大化内存利用和计算效率,支持大规模 VLA-RL 训练。
关键措施:
总
G
块 GPU。专用
1
块 GPU 运行推理引擎,使用vLLM
高效加速 VLA 模型的大批量推理。剩余
G-1
块GPU
运行学习过程(策略、价值网络更新),使用Ray
进行分布式协调。
模型精度: 使用 bfloat16 存储模型参数和计算,显著减少内存占用。
GPU 专业化分工:
推理引擎优化: 在
vLLM
插件中实现OpenVLA
,替换原生 Hugging Face Transformers 生成函数,解决大批量推理时结果错误的问题。分布式训练框架: 使用 PyTorch FSDP (Fully Sharded Data Parallel) 管理分布式训练,有效支持超大模型参数的切分与同步。
启发与思考
双阶段训练范式成主流:监督预训练 + 在线RL微调是稳定训练VLA的基础框架(如iRe-VLA、RL4VLA);
RL算法选择:目前PPO是训练主流,是否可以研究适合于VLA-RL新的RL算法(比如LOOP);
稀疏奖励问题需多路径破解:一些解决方案是把轨迹划分成一些子任务分别打分形成稠密奖励,也可以精心设计不同目标对应的cost函数,然而更精准有效的奖励设计仍亟待探索;
提升样本有效性:由于VLA采样成本更高,提高学习的有效性更加重要,可以采取类似课程学习的思路增加有效性;
RL工程问题仍需解决:如何在VLA场景下解决采样效率低、在线采样显存开销大的工程问题还需下功夫破解;如何在非自回归的VLA结构上跑通RL也是一个具有挑战性和实际意义的问题;
自动驾驶之心
论文辅导来啦
知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。
独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com