点击下方卡片,关注“具身智能之心”公众号
作者丨Peiyan Li等
编辑丨具身智能之心
本文只做学术分享,如有侵权,联系删文
更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。
出发点与工作背景
近年来,利用预训练视觉 - 语言模型(VLM)构建视觉 - 语言 - 动作(VLA)模型成为机器人操作学习的重要方向,但现有方法在融入 3D 信号时未充分利用其空间结构,导致样本效率低。为此,本文提出 BridgeVLA 模型,通过将 3D 输入投影到多个 2D 图像以适配 VLM 主干输入,并利用 2D 热图统一输入输出空间进行动作预测,同时提出可扩展预训练方法使 VLM 具备 2D 热图预测能力。实验表明,该模型在 RLBench、COLOSSEUM、GemBench 三个仿真基准上平均成功率分别提升至 88.2%、64.0% 且超越所有对比基线,真实机器人实验中成功率较先进基线高 32%,在视觉干扰、未见指令等分布外场景泛化能力强,每个任务仅需 3 条轨迹即可在 10 多个任务上实现 96.8% 的成功率,显著提升了机器人 3D 操作学习的效率与泛化性。
项目页面:https://bridgevla.github.io/
一些介绍
利用预训练视觉 - 语言模型(VLMs)开发大型视觉 - 语言 - 动作(VLA)模型是学习可泛化鲁棒操作策略的前景方向,但多数 VLA 模型仅用 2D 图像输入且需大量数据,而 3D 机器人策略利用 3D 结构先验在复杂任务中样本效率卓越。现有整合 3D 信息到 VLM 以开发 3D VLA 模型的工作,常将动作转为无空间结构的标记序列进行预测,未像高效 3D 策略那样对齐观察与动作的统一空间,且 3D 输入与 VLM 预训练的 2D 图像输入存在分布偏移,导致样本效率低,因此亟待开发兼具 VLA 有效性与 3D 策略效率的统一 3D VLA 模型。
为解决现有 3D VLA 模型样本效率低及输入输出分布偏移问题,如图1所示,本文提出 BridgeVLA 模型:通过将 3D 点云观察转换为多视角 2D 图像,与预训练 VLM 主干输入对齐;训练模型预测 2D 热图用于平移动作预测,将输入观察与输出动作统一到相同分辨率的 2D 空间结构中,充分利用 3D 输入结构先验;针对原始 VLM 预训练与 2D 热图输出不兼容的问题,引入可扩展预训练方法,使模型在文本条件下通过热图定位对象,让 VLM 具备热图预测能力。该设计在预训练和微调阶段实现了输入输出在共享 2D 空间的对齐,兼具样本效率与泛化能力。

本文提出的 BridgeVLA 模型在仿真与真实环境实验中表现优异:在 RLBench、COLOSSEUM、GemBench 三大仿真基准中,平均成功率分别提升至 88.2%、64.0% 且超越所有对比基线;真实机器人实验在七种场景下评估,成功率较先进方法平均高 32%,在视觉扰动等分布外场景泛化能力强,且每个任务仅需 3 条轨迹就能在 10 多个任务上实现 96.8% 的成功率,样本效率突出。该研究的三大贡献在于:开发了通过 2D 热图实现输入输出对齐的新型 3D VLA 模型 BridgeVLA;提出可扩展预训练方法使模型能在文本条件下通过热图定位对象;通过广泛实验验证了 BridgeVLA 在仿真与真实环境中对先进方法的超越及卓越的样本效率。
BridgeVLA 的系统架构
预备知识
BridgeVLA 旨在学习多任务 3D 机器人操作策略 π,该策略将观察 o(如 RGB-D 图像)和语言指令 l 映射为动作 a。其中,动作 a 由 6 自由度末端执行器位姿 T、夹持器状态 g 和碰撞标志 c 组成,关键帧用于捕获轨迹中的关键步骤。模型基于专家演示数据集 D={τi}(包含 N 条轨迹,每条轨迹含语言指令及观察 - 动作对序列),通过迭代流程工作:先根据当前观察和指令预测动作,再利用运动规划器移动至目标位姿,更新观察后重复直至任务完成或达最大步数。
如图 2 所示,BridgeVLA 采用双阶段训练方案。在预训练期间,它被训练在对象检测数据集上预测 2D 热图。在微调期间,点云被投影到多个 2D 图像作为 VLM 主干的输入。模型被训练预测 2D 热图以估计平移动作和其他动作组件。这种设计在预训练和微调中均将输入和输出对齐到共享的 2D 空间。

2D 热图预训练
VLM 主干最初预训练用于预测没有空间结构的标记序列。为使其具备与下游策略学习相同的预测热图的能力,我们引入一个预训练阶段,训练模型通过热图接地目标对象。具体而言,我们利用 RoboPoint 的 120K 对象检测分割作为我们的预训练数据集。对于每个图像,我们从所有感兴趣对象的边界框构建地面真实热图 。具体来说,对于每个对象,我们构建一个具有空间截断的概率图:

对于所有感兴趣的对象,我们通过平均和归一化融合所有对象的概率图以获得 :

如图 2 所示,BridgeVLA 将图像与描述感兴趣对象的文本提示输入至 VLM 主干(采用 PaliGemma,由 SigLIP 视觉编码器和 Gemma Transformer 主干组成)。预训练时,PaliGemma 以一个或多个 2D 图像与前缀文本(如关于图像的问题)为输入,通过因果注意力预测后缀文本(如答案),并对图像标记和前缀文本标记采用双向注意力以融合信息。
为预测热图,模型先根据补丁位置重排输出图像标记,重建空间特征网格,再通过凸上采样块将网格转换为与输入图像同分辨率的热图,利用交叉熵损失训练模型定位图像中所有感兴趣对象。该预训练策略输出具备空间意识的 2D 热图,区别于先前工作中基于标记序列的预测方式,且可利用关键点检测、语义分割等任何可转化为热图预测任务的视觉 - 语言数据集,具有高度可扩展性。
3D 动作微调
微调时,先通过校准相机的 RGB-D 图像重建场景点云,再从顶部、正面、右侧三个正交视点渲染点云,生成 3 幅 2D 投影图像,与 RVT 和 RVT-2 的方法一致。这些图像与任务指令一同输入预训练的 VLM 主干,为每个视图生成热图。此外,VLM 前向传递时不纳入机器人状态等额外信息,以减小预训练与微调间的分布偏移。
平移动作预测上,反投影三个视图的热图,估计机器人工作空间内 3D 点网格的分数,选取得分最高的 3D 点确定末端执行器平移位置。旋转动作采用欧拉角表示,每个轴离散为 72 个箱。预测旋转、夹持器动作和碰撞标志时,整合全局与局部特征:对每个投影图像的输出标记应用最大池化获取三个全局特征标记,从每个视图热图峰值提取三个局部特征标记,将这些标记连接后通过 MLP 输出动作预测结果。
BridgeVLA 采用粗到细的 refinement 策略提升动作预测准确性。先在原始点云上进行初始预测,然后以预测的平移为中心,放大并裁剪长方体区域的点云,对裁剪后的点云进行第二次前向传递,最终用第二次传递的预测动作用于执行。
微调期间的训练损失由四个分量组成:

与预训练类似, 是监督平移动作热图预测的交叉熵损失。每个正交视图的地面真实热图是式 2 中定义的归一化单对象概率图。我们还在 中应用交叉熵损失来监督旋转预测。对于夹持器动作和碰撞避免,我们在 和 中使用二元交叉熵损失作为监督。为了增强几何鲁棒性,在训练期间对点云和地面真实动作联合应用随机刚体变换。
实验
在本节中,通过实验,我们旨在回答四个问题:
Q1:与最先进的方法相比,BridgeVLA 学习 3D 机器人操作的效果如何?
Q2:BridgeVLA 是否能够从非常有限的数据(例如每个任务 3 条轨迹)中高效学习?
Q3:BridgeVLA 在处理视觉干扰(例如干扰物、背景和光照)时的鲁棒性如何?
Q4:BridgeVLA 如何泛化到新的对象 - 技能组合和先前未见类别的对象?
仿真实验
(1)RLBench 实验
实验设置:RLBench 在 CoppeliaSim 中利用安装平行夹爪的 Franka Panda 机器人实现任务,观察数据来自正面、左肩、右肩和手腕处的四个校准相机捕获的 RGB-D 图像。针对 18 个任务展开实验,涵盖非抓取操作、拾取放置、高精度插入等类型,每个任务提供 100 条专家演示,通过每个任务 25 次试验的二元成功率评估模型,每次试验最多 25 步。
对比基线:包括 2D 基线方法 Image-BC(CNN)、Image-BC(ViT),体素空间方法 C2F-ARM-BC、PerAct,多模态架构 HiveFormer,3D 场景编码方法 PolarNet,以及 Act3D、3D Diffuser Actor、RVT、RVT-2 等先进方法。
实验结果:如表1所示,BridgeVLA 经五次评估后,在 18 个任务中平均成功率达 88.2%,平均排名 1.9,超越所有基线,成为新的最优方法。尤其在 “插入钉子”(88.0% vs 40.0%)和 “排序形状”(60.8% vs 35.0%)等高精度对齐任务中优势显著,证明其学习复杂操作的能力。仅 “放置杯子” 任务因目标关键点在正交视图中易被遮挡表现相对较弱,未来计划通过动态选择投影视图优化。

(2)COLOSSEUM 实验
实验设置:为评估 BridgeVLA 的泛化能力,在 COLOSSEUM 基准(RLBench 扩展版)上开展实验。模型使用原始 RLBench 数据(20 个任务,每个任务 100 条轨迹)训练,测试环境包含 12 种扰动轴(对象纹理 / 颜色 / 大小、背景、光照、干扰物、相机姿势等变化),共生成 20,371 个任务扰动实例。评估分三步:训练模型→每个任务在各扰动下测试 25 次→计算扰动场景下的平均成功率,同时对比原始 RLBench 场景与全扰动组合的挑战性场景。
对比基线:包括 2D 方法 R3M-MLP(基于大规模人类视频预训练的 R3M 编码器)、MVP-MLP(基于野生数据预训练的 MVP 编码器),以及 3D 方法 PerAct、RVT、RVT-2。
实验结果:如表2所示,BridgeVLA 平均成功率超越所有基线,较最优基线高出 7.3%,在 14 个评估扰动中 13 个排名第一,验证了其对视觉扰动的强鲁棒性,有效解决了泛化能力验证问题(Q3)。

(3)GemBench 实验
实验设置:为进一步验证 BridgeVLA 的泛化能力,在 GemBench 基准(基于 RLBench 模拟器的分层泛化基准)上开展实验。训练集含 16 个任务(31 种变体),覆盖按压、拾取等 7 个核心动作原语;测试集分 4 个难度递增的设置:
L1(新放置):原任务对象随机放置,引入彩色干扰物;
L2(新刚性对象):15 个未见任务,涉及 8 种新刚性对象的颜色 / 形状组合交互;
L3(新铰接对象):18 个未见任务,需处理铰接对象的动作 - 部件组合、新实例 / 类别;
L4(新长视野任务):6 个复杂任务,需组合多个子动作完成。
对比基线:包括 3D-LOTUS、3D-LOTUS++(整合 LLM 任务规划、VLM 对象接地及运动控制),以及 Hiveformer、PolarNet、3D Diffuser Actor、RVT-2 等方法。
实验结果:如表3所示,BridgeVLA 在 L1-L4 四个设置的平均成功率均超越所有基线,尤其在 L2(新刚性对象)和 L3(新铰接对象)中表现突出,验证了其对新对象类型的强泛化能力(解决 Q4)。但在 L4 长视野多子任务场景中表现有限,未来计划结合大型语言模型(LLMs)进行任务分解以优化。

真实机器人实验
实验设置:在真实机器人实验中,为验证 BridgeVLA 的有效性,采用安装平行夹爪的 Franka Research 3 机械臂搭配静态 ZED 2i 深度相机,通过深度相机获取彩色点云作为观察数据。实验共评估 13 个任务,任务难度跨度大,从简单的拾取放置任务到如打开抽屉并放入物品的复杂长视野任务均有涵盖,每个任务包含 3-9 个关键帧,且每个任务收集 10 条专家轨迹用于模型训练。
为全面评估 BridgeVLA 模型性能,设计了 7 种不同实验设置:在与训练数据相似环境中评估的基本设置;添加视觉相似干扰物的干扰物设置;在关灯等不同光照条件下测试的光照设置;用三种桌布改变背景的背景设置;将对象放 9.5 厘米高抽屉上的高度设置;评估 13 种训练中未配对对象与技能组合的组合设置;测试 7 个训练数据未见类别对象操作的类别设置。其中,前四种设置用于评估模型对视觉干扰的鲁棒性,后两种用于评估对未见指令的泛化能力。
在真实机器人实验中,我们将 BridgeVLA 与仿真实验中表现最强的基线方法 RVT-2 进行对比。同时,为探究所提出的预训练方法的有效性,还与排除了 2D 热图预训练的 BridgeVLA 消融变体 BridgeVLA w/o Pre-train 进行比较。
实验结果:(1)如图 3 所示,BridgeVLA 在 7 种设置中的 6 种优于对比基线 RVT-2 和 BridgeVLA w/o Pre-train。RVT-2 在干扰物、光照、背景等 4 种视觉干扰场景中表现不佳,而 BridgeVLA 能在干扰物和背景设置中保持高性能,验证其对视觉干扰的强鲁棒性(解决 Q3)。此外,每个任务仅用 3 条轨迹训练时,BridgeVLA 在基本设置中仍实现 96.8% 的成功率,与 10 条轨迹训练效果相当,凸显数据效率(解决 Q2)。
(2)消融变体 BridgeVLA w/o Pre-train 在 “组合” 和 “类别” 两种语言相关泛化设置中表现较差,而 BridgeVLA 在组合设置中显著超越基线,证明其通过 2D 热图预训练建立了语言语义与图像观察的空间关联能力。该结果验证了 2D 热图预训练对理解语言指令的重要性(解决 Q4)。
(3)BridgeVLA 在类别设置中虽优于基线,但绝对成功率有限,常见失败模式为机器人忽略目标对象直接移动。分析认为,性能下降源于预训练图像视角(第三人称)与机器人数据(投影图像)的差异,以及预训练任务(对象定位)与操作任务(关键点预测)的目标不匹配。未来计划扩展预训练数据集多样性,并优化动作解码方法以利用预训练知识。

总结
我们提出新型高效 3D 视觉 - 语言 - 动作模型 BridgeVLA,其核心在于:将 3D 输入转为 2D 图像以匹配预训练视觉 - 语言模型(VLM)的 2D 输入格式,通过 2D 热图预测实现输入观察与输出动作在统一 2D 空间的对齐,并采用可扩展预训练方法使 VLM 在微调前具备热图预测能力。仿真与真实环境实验表明,该模型能高效学习 3D 操作。未来计划拓展预训练任务至语义分割、关键点检测等,并引入扩散等更优动作解码方法以提升策略性能。
参考
[1] BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models