论文阅读笔记——PointVLA: Injecting the 3D World into Vision-Language-Action Models

PointVLA 论文

现有的 VLA 基于 2D 视觉-语言数据表现良好但缺乏 3D 几何先验导致空间推理缺陷。传统方案:1)3D->2D 投影,造成几何信息损失;2)3D 数据集少。PointVLA 保留原有 VLA,提取点云特征,向 Action Expert 的非关键层注入几何特征(跳连分析)。“分治”。

在这里插入图片描述
选择性三维注入:

  • 全模块注入会导致大量额外计算,选择性注入在少数层增加 MLP + 特征加和
  • 保持实时性
  • 盲目注入 3D 特征会破坏 2D 的预训练知识
  • 全模块注入可能导致过拟合

DP3 与 iDP3 中发现预训练的 3D 视觉编码器阻碍性能提升,采用层级卷积。
在这里插入图片描述
通过平均分数(长期任务的评定标准)对跳过块进行分析,以 DexVLA 为例:前 11 个块很重要,跳过任何一个都会导致性能显著下降,即 11-31 块对性能贡献度较小。
只训练 5 个额外的注入块,性价比最高。

实验结果

在模拟和真实世界环境中的实验证明了PointVLA的有效性,它实现了少样本多任务学习(每个任务仅用20个演示样本完成4个任务),并在动态物品包装等长视野任务中表现卓越。在双手机器人(UR5e和AgileX机械臂)上的真实世界测试进一步验证了其实用性和安全性。
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值