RSS 2025|香港大学联合项目UniVLA框架论文解读:从潜在动作学习到机械臂跨环境部署的技术突破

研究背景

现有机器人政策学习大多依赖大规模带动作标注的数据,不仅数据获取成本高,还难以跨不同载体(如不同机械臂、甚至人类动作)和环境迁移,在实际场景中泛化能力有限。

而以松灵PiPER机械臂为载体的UniVLA框架,通过 “任务中心潜在动作” 学习方案,打破了这一限制 —— 它无需依赖动作标签,能从机器人演示、人类视频等多源数据中提取通用动作知识,最终在实际部署中实现高效任务执行,解决了传统方法在跨载体、跨环境适配及数据依赖上的核心问题。

UniVLA,这是一个统一的视觉语言行动(VLA)框架,可实现跨不同领域的策略学习 环境。通过以无监督的方式推导以任务为中心的潜在动作,UniVLA可以利用来自任意 没有动作标签的具身和视角。在从视频进行大规模预训练后,UniVLA通过学习最少的动作解码,开发出一种跨具身的通用策略,该策略可以轻松部署到各种机器人上 成本。与OpenVLA [39]相比,UniVLA在多个操作和导航任务上均有一致的改进。

核心方法

UniVLA 框架通过三步实现高效政策学习,为 PiPER 机械臂的精准操作提供支撑:

任务中心潜在动作学习:从视频中提取与任务相关的动作表示。利用DINOv2 提取图像特征,结合语言指令分离 “任务相关” 和 “任务无关” 动态(如排除相机抖动、无关物体移动等干扰),通过 VQ-VAE 将动作量化为离散 tokens。

下一个潜在动作预测:基于视觉观察和语言指令,训练自回归模型预测潜在动作序列,具备跨载体的规划能力。

潜在动作解码:将潜在动作转化为机械臂可执行的控制信号,通过轻量级解码器和LoRA 参数高效微调,快速适配 PiPER 机械臂的控制需求。

2:以任务为中心的潜在动作学习。提出了一个两阶段训练框架,旨在将以任务为中心的视觉动态和变化与无关因素分离开来。在第一阶段,从预训练的T5文本编码器,导出的任务指令嵌入被用作编码器和解码器的输入。这些嵌入提供与任务相关的语义信息,以提高预测准确性。在第二阶段,引入了一组新的潜在动作,专门设计用于取代语言的作用,并从视频帧的DINOv2编码特征中捕捉以任务为中心的动态。

实验设置

机械臂:松灵PiPER 机械臂(7自由度,支持灵活的抓取、放置等精细操作)。

感知设备:Orbecc DABAI RGB-D相机(仅使用RGB图像作为视觉输入,无需深度或里程计数据)。

计算支持:NVIDIA RTX 4090 GPU,实现10Hz实时闭环推理,满足实际操作的低延迟需求。

实验设计与验证

1. 核心任务设计

围绕机械臂的“空间感知”“工具使用”“变形物体操作”“语义推理” 四大能力,设计 4 项任务:

  • 存放螺丝刀

  • 清洁切菜板

  • 折叠毛巾

  • 收拾碗具

图片

关键发现:

在四项核心任务中,搭载 UniVLA 框架的 PiPER 机械臂平均成功率达 81.7%,较 OpenVLA(38.3%)提升 36.7%,较 LAPA 提升 23.4%。其中:

  • “存放螺丝刀” 任务成功率 93.3%(验证空间推理能力)

  • 收拾碗具” 任务成功率 86.7%(验证语义理解能力),远超 Diffusion Policy 的 6.7%。

2. 泛化能力验证

在不同干扰场景下测试机械臂适应性:

  • 光照变化:调暗环境光并增加定向强光

  • 视觉干扰:在桌面添加碗、笔记本等无关物体

  • 新物体:将“螺丝刀” 替换为未见过的 “马克笔”

UniVLA在所有评估任务中均表现出卓越性能,展现出 它具有从高层次语义理解到低层次视觉鲁棒性的卓越泛化能力。

泛化能力突出

在干扰场景中表现稳健:

光照变化下成功率 66.7%(是 OpenVLA 的 5 倍)

新物体场景成功率 86.7%(仅比原始场景低 6.6%)

视觉干扰场景得分 2.40(是 OpenVLA 的 3.3 倍)

3. 对比方法

3类主流方法对比,确保结果可靠性:

单任务模型:Diffusion Policy(专注特定轨迹精度)

通用政策模型:OpenVLA(依赖大规模带标注机器人数据)

潜在动作模型:LAPA(基于 Prismatic-7B VLM 复现)

6:VLN-CE中R2R的Oracle成功率。仅使用单帧RGB输入,UniVLA的表现与NaVid相当,NaVid是一个整合了所有历史观测数据的导航模型,而在成功率方面,UniVLA明显优于OpenVLA

关键成果与突破

性能提升:

UniVLA在多个操纵和导航基准测试上取得了显著优于基线模型的性能,如在LIBERO基准测试上成功率提高了18.5%,在导航任务上提高了29.6%。

在真实世界实验中,UniVLA的平均成功率比次优模型高出36.7%,展示了其在实际应用中的强大潜力。

高效性与可扩展性:

UniVLA的预训练成本仅为OpenVLA的1/20,同时实现了更好的性能,证明了其高效性。

随着数据集规模的扩大,UniVLA的性能持续提升,有效利用跨embodiment、跨视角数据集和未标注人类视频来增强预训练效果。

泛化能力:

UniVLA在未见过的场景和物体上表现出色,如在不同光照条件、视觉干扰和新颖物体设置下均能保持较高的成功率和步骤得分。

结语

本研究以松灵PiPER六轴协作机械臂为载体,通过提出UniVLA框架,成功实现了跨embodiment和跨环境的高效决策与规划。

该框架不仅解决了传统方法对标注数据的依赖问题,还显著提升了机器人在复杂任务和多变环境中的适应性和泛化能力。UniVLA的成功应用为通用机器人的发展开辟了新的道路,展示了无监督学习在机器人技术领域的巨大潜力。

未来,随着技术的不断进步和应用场景的持续拓展,UniVLA有望在更多领域发挥重要作用,推动机器人技术的智能化和自主化发展。

论文详情:https://arxiv.org/pdf/2505.06111

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值