端到端VLA新范式！ReinboT：利用强化学习增强机器人视觉语言操作

自动驾驶之心

于 2025-05-26 12:02:46 发布

阅读量126

点赞数

CC 4.0 BY-SA版权

文章标签：机器人人工智能机器学习深度学习算法

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247665714&idx=2&sn=8a0462bc4a1e32d52a34c0f4f9629ae0&chksm=cf184ba44ae2596d2ef496eaae3f3f158a54439da21efa069b36b1244dbdbf291514d5b2aa64&scene=126&sessionid=0

点击下方卡片，关注“具身智能之心”公众号

作者丨Hongyin Zhang等

编辑丨具身智能之心

本文只做学术分享，如有侵权，联系删文

>>点击进入→具身智能之心技术交流群

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

写在前面

视觉-语言-动作 (VLA) 模型通过模仿学习在通用机器人决策任务中展现出巨大潜力。然而，训练数据质量参差不齐往往会限制这些模型的性能。另一方面，离线强化学习 (RL) 擅长从混合质量数据中学习稳健的策略模型。我们提出Reinforced robot GPT (ReinboT)，这是一种新颖的端到端 VLA 模型，它融合了 RL 最大化累积奖励的原理。ReinboT 通过预测能够捕捉操作任务细微差别的密集回报，从而更深入地理解数据质量分布。密集回报预测能力使机器人能够生成更稳健的决策行为，以最大化未来收益为目标。大量实验表明，ReinboT 在 CALVIN 混合质量数据集上达到了最佳性能，并在真实世界任务中展现出卓越的小样本学习和分布外泛化能力。

背景介绍

近年来，针对机器人通用具身智能的视觉-语言-动作 (VLA) 模型的研究蓬勃发展。VLA 模型通常基于模仿学习范式，其中预先训练好的视觉-语言模型在下游机器人数据上进行后训练。虽然通过大量的机器人训练数据，VLA 模型的语义泛化能力有所提升，但其在下游任务的操控精度方面仍然存在关键差距。

限制 VLA 模型性能的一个重要原因是训练数据源的质量通常参差不齐，即使它们来自成功的演示。尽管最近的模仿学习方法可以有效地复制演示的分布，但它们难以区分数据质量参差不齐和充分利用混合质量数据。另一方面，离线RL算法旨在利用先前收集的数据，而无需在线收集数据。尽管最初有人尝试将 VLA 与 RL 相结合，但对于视觉语言操作任务中广泛适用的密集奖励的设计，以及将 RL 中的收益最大化概念融入 VLA 模型仍未得到充分探索。

为此，我们提出了ReinboT，这是一种新颖的端到端 VLA 模型，用于实现 RL 的密集回报最大化概念。具体而言，高效且自动地将长视域操作任务轨迹分解为仅包含单个子目标的多个轨迹段，并设计了一种能够捕捉操作任务特征的密集奖励。事实上，复杂的机器人操作任务需要考虑许多因素，例如跟踪目标、降低能耗以及保持灵活稳定的行为。因此，所提出的奖励密集化方法的设计原理正是基于这些考虑，并且该方法仍然广泛应用于各种操作任务。

在 ReinboT 算法设计方面，我们认为强化学习算法中价值函数的准确估计一直是一个棘手的问题，尤其是在 Transformer 架构中。因此，我们利用累积奖励（即 ReturnToGo）作为一种新的模态数据，基于构建的密集奖励来表征数据质量特征。受之前研究的启发，我们对语言命令、图像状态（和本体感觉）、动作和 ReturnToGo 的联合分布建模最大回报序列。这是一个监督范式，它整合了强化学习的目标，即在给定当前条件下预测分布中的最大回报，从而考虑最大化动作的可能性。具体来说，我们利用预期回归使预测回报尽可能接近当前目标和状态下可以实现的最大回报。借助这种能力，ReinboT 可以在推理过程中预测最大回报，从而指导执行更优的行动。

总体而言，核心贡献包括：

提出了 ReinboT，这是一种新颖的端到端 VLA 模型，它集成了 RL 回报最大化原则，以增强机器人的操控能力。
引入了一种奖励密集化方法，使 ReinboT 能够细粒度地了解数据质量分布，从而实现更稳健的学习。
大量实验证明了 ReinboT 的卓越性能，在模拟和实际任务中均显著超越基线。

图 1. 提出的 ReinboT 模型。利用 CLIP对机器人语言指令进行编码，利用 ViT（以及感知器重采样器）对图像状态的原始像素空间进行压缩和编码，并利用 MLP 对机器人本体感觉进行编码。此外，基于 GPT 风格的 Transformer，引入三个预测 token 嵌入（[RTG]、[ACTION] 和 [IMAGE]），分别用于预测 ReturnToGo、机器人动作和未来图像状态。ReturnToGo 解码器中的最后一层隐藏特征进一步用于预测机器人动作。ReturnToGo 中的密集奖励包含四个方面：子目标达成、任务进度、行为平滑性和任务完成度。

方法详解

旨在构建一个新颖的端到端 VLA 模型，将最大化密集奖励的原则融入机器人视觉运动控制中，如图 1 所示。首先，在设计密集奖励时考虑了四个主要因素（子目标达成、任务进度、行为平滑性和任务完成度），以捕捉机器人长视域操作任务的本质。然后我们详细阐述了如何构建一个新颖的端到端强化学习 VLA 模型和测试执行流程。最后讨论并分析了所提出的 ReinboT 如何有机地整合强化学习最大化奖励的原则。

奖励稠密化

对于长视域视觉语言操作任务，VLA 模型通常需要在遵循目标的同时，以最小的能量消耗保持鲁棒稳定的行为。因此，我们主要围绕这一原则设计一个广泛适用的密集奖励机制，以捕捉操作任务的本质。直观地，在机器人轨迹中，最小化状态距离的奖励是一种简单有效的方案，可以鼓励机器人直接移动到目标状态。然而，这种奖励仅限于任务仅包含一个目标的情况。对于需要操作具有多个子目标的长视域任务，这种奖励会引导机器人直接移动到最终目标状态，从而导致失败。

因此，首先将长视域操作任务划分为多个子目标序列，并为每个序列设计一个密集奖励。启发式过程会迭代每个演示轨迹中的状态，并确定该状态是否应被视为临界状态。判断基于两个主要约束：关节速度接近于零以及夹持器状态的变化。直观地讲，这发生在机器人达到预抓取姿势或过渡到新任务阶段时，或者在抓取或释放物体时。因此，将临界状态作为子目标是一个自然而合理的选择。

子目标达成：

图像状态和本体感觉都包含丰富的环境感知信息。因此，子目标实现奖励涵盖本体感受跟踪、像素强度、图像视觉质量和图像特征点。

任务进度：

考虑到分为几个子目标序列对整体轨迹的影响是不同的。后面的序列更接近最终的目标状态。子目标序列越接近最终目标状态，任务进展奖励越大。

行为平滑性：

为促进运动轨迹平滑自然，主要考虑抑制机械臂运动的关节速度和加速度以及动作的变化率，从而惩罚过于剧烈僵硬的轨迹运动。

任务完成度：

对于视觉语言操作任务，语言指令被视为与机器人行为相匹配的目标。相匹配则为1，否则为0.

基于这四个主要因素，我们可以构建能够捕捉长视域视觉语言操作任务本质的广义密集奖励函数为。通过利用设计的奖励信号，ReinboT 可以对训练数据的质量分布有更广泛和更深入的理解和识别，从而引导机器人执行更鲁棒和稳定的机器人决策动作。

端到端强化 VLA 模型

通过提出的密集奖励，我们可以获得用于长视界视觉语言操作任务的 ReturnToGo。我们进一步解释如何构建一种新颖的端到端强化 VLA 模型来实现 RL 最大化回报原则。提出的 ReinboT 模型利用 GPT 风格的 Transformer作为骨干网络，因为它可以灵活有效地使用不同类型的模态数据作为输入和输出。 CLIP用于编码语言指令，ViT（以及感知器重采样器）用于压缩和编码图像状态，MLP 用于编码本体感觉。我们引入动作和图像 token 嵌入（[ACTION] 和 [IMAGE]），并分别通过动作解码器和图像解码器预测机器人动作和未来图像状态。最重要的是，我们将 ReturnToGo 视为一种新的数据模态，并学习 ReturnToGo 预测 token 嵌入 [RTG]：

通过 ReturnToGo 解码器预测给定语言指令、图像状态和本体感觉的最大回报。ReinboT 模型的损失函数包括 ReturnToGo 损失、手臂动作损失、夹持器动作损失和未来图像损失：

ReinboT 中的模块化设计使得我们只需进行单次模型推理即可获得机器人动作，推理效率高于之前的模型。这种设计的更大好处是，在推理阶段，我们不需要像之前的模型那样手动设置 ReturnToGo 的初始值。这对于实际部署至关重要，因为它大大减轻了手动调整参数的繁琐，并且实际部署环境在很大程度上无法直接获得奖励。

仿真实验

设置。首先构建一个基于 CALVIN的混合质量数据集，其中包含长期操控任务，以检验所提出的 ReinboT 和基线算法的性能。该数据集包含少量 CALVIN ABC 中带有语言指令的数据（每个任务约 50 条轨迹）和大量不带语言指令的自主操作数据。除了 CALVIN 中人类远程操作在不带语言指令的情况下收集的原始数据（超过 20,000 条轨迹）之外，自主操作数据还包含经过训练的 VLA 行为策略 RoboFlamingo与环境 CALVIN D（超过 10,000 条轨迹）交互产生的故障数据。为了促进数据多样性，在交互过程中，RoboFlamingo 策略模型的动作被添加了不同程度的高斯噪声。我们研究在这些混合质量数据上进行训练，然后用语言指令对少量数据进行微调，最后在 CALVIN D 上测试泛化性能。表 1 显示了链中每个语言指令的成功率和完成任务的平均长度 (AL)。

泛化性能对比。

表1显示，模仿学习范式下的VLA模型仅对原始训练数据分布进行最大似然估计，难以捕捉并充分利用混合质量分布的特征，导致性能不理想。所提出的奖励能够更深入、更详细地表征数据质量分布，从而为 VLA 模型的训练带来更密集的监督信号。ReinboT 可以有效地运用强化学习的理念，利用密集回报最大化来增强长视域视觉语言操作任务。

密集奖励成分的消融。

表2所示，消融实验表明各奖励成分都能帮助模型深入识别数据质量的各个方面，对机器人的泛化性能有显著的影响。

超参数λ和m对性能的影响。我们进一步对ReinboT中引入的λ和m进行消融实验，并在CALVIN混合质量数据上进行训练，并在环境D上进行测试，以探究它们对模型性能的影响（图2）。超参数λ用于在模型对ReturnToGo的预测与其他模态之间进行权衡。预期回归参数m用于控制模型对不同预期水平的敏感度，从而调整模型对ReturnToGo分布的拟合特性。实验结果表明，当λ = 0.001且m = 0.9时，ReinboT的性能最佳。

预测的最大化强化学习回报的性质。

为了分析所提出的RinboGPT模型性能提升的根本原因，我们探索了预测的最大化强化学习回报的性质（图3）。结果表明，随着预期回归参数m的增加，ReturnToGo分布向更大的值偏移。因此，ReinboT能够有效地识别和区分训练数据的质量分布，并尽可能地预测在当前（及历史）状态下能够最大化回报的机器人动作。这意味着机器人在执行某个动作时，会考虑最大化未来一段时间的长期收益，而非仅仅考虑短期的当前（及历史）状态。这种能力可以有效提升ReinboT模型在长期操控任务中的泛化性能。

真实世界实验设置

我们对现实世界的任务进行了评估，以检验所提出的 ReinboT 是否能够在现实场景中执行有效的少样本学习和泛化。具体来说，我们考虑在机械臂 UR5 上拾取和放置杯子、碗和毛绒玩具等物体的任务。收集到的成功轨迹总数约为 530 条（数据分布如图 5 所示），模型首先在这些数据上进行训练。对于少样本学习评估，我们考虑三个物体抓取和放置任务（图 4(a-c)）。每个任务仅包含 30 条成功轨迹，模型针对这三个任务进行了微调。对于 OOD 泛化评估，我们考虑包含未见指令、背景、干扰项和被操纵物体的场景（图 4(d-g)）。

成功轨迹的ReturnToGo分布。

图 5 展示了现实中成功轨迹的 ReturnToGo 分布。结果表明，即使训练数据全部为成功轨迹，在我们提出的密集奖励指标下，其质量分布仍然不均匀。因此，有必要将 RL 的思想引入 VLA 模型，以深入识别数据分布并指导预测最大化数据质量的动作。

真实机器比较。

现实任务的定量性能比较如图 6 所示。实验结果表明，所提出的 ReinboT 在现实场景中具有出色的小样本学习和 OOD 泛化性能，并且显著优于基线方法。这得益于 ReinboT 能够有效地考虑最大化未来回报。RWR 的表现与 GR-1 相当。这可能是由于 RWR 对训练数据的过度拟合及其对数据重新加权的依赖，这在数据分布不均匀或数据量不足时可能导致优化问题。

结论

我们将 RL 中的最大化回报原则内化到 VLA 框架中，从而增强了机器人的长期操作能力。所提出的 ReinboT 可以预测描绘操作任务重要信息的最大密集回报，从而对数据质量有深入而详细的理解。这种能力使得机器人在采取决策行动时不仅能够考虑当前（和历史）状态，还能考虑未来的密集收益。与基线相比，ReinboT 在模拟和现实世界的视觉语言操作任务中都取得了优异的表现。我们的工作提高了机器人的视觉语言操作能力，有助于实现通用智能。一项有前途的工作是考虑模型和数据的扩展，以应对现实世界中丰富多样的机器人任务。

论文辅导计划

具身智能干货社区

具身智能之心知识星球是国内首个具身智能开发者社区，也是最专业最大的交流平台，近1500人。主要关注具身智能相关的数据集、开源项目、具身仿真平台、VLA、VLN、具身大脑、具身小脑、大模型、视觉语言模型、强化学习、Diffusion Policy、机器臂抓取、姿态估计、策略学习、轮式+机械臂、双足机器人、四足机器人、大模型部署、端到端、规划控制等方向。星球内部为大家汇总了近30+学习路线、40+开源项目、近60+具身智能相关数据集。

全栈技术交流群

具身智能之心是国内首个面向具身智能领域的开发者社区，聚焦大模型、视觉语言导航、VLA、机械臂抓取、Diffusion Policy、双足机器人、四足机器人、感知融合、强化学习、模仿学习、规控与端到端、机器人仿真、产品开发、自动标注等多个方向，目前近60+技术交流群，欢迎加入！扫码添加小助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）。