为什么 VLA 能叠毛巾,却测不准物体位姿?

点击下方卡片,关注“具身智能之心”公众号

作者丨Zheng Geng等

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文


>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

想象这样一组反差场景:VLA 模型能流畅完成叠毛巾、整理衣物等几何类操作,可面对 “用机械臂抓起陌生调料瓶”“给未知零件定位 3D 姿态” 这类任务时,却频频失误——要么抓空,要么把物体碰倒。这背后藏着具身智能落地的关键瓶颈:6D 物体位姿估计

玩过机器人操作的朋友都知道,“抓零件”“放调料瓶” 这类需要精准交互的任务,核心是 “靠空间感知说话”——得知道物体的 3D 位置(平移)和朝向(旋转),还要确保测算的尺度与真实世界一致。可现有方法总在 “妥协”:要么依赖预先扫描的 CAD 模型(现实中根本找不到那么多),要么需要多视角图像(实时场景中哪来得及拍),就算是单视图重建,也会陷入 “不知道物体真实大小” 的尺度模糊困境。

这就导致了鲜明的能力断层:VLA 能靠视觉规划完成 “叠毛巾” 这类不依赖精准空间定位的任务,却在 “抓陌生物体” 这类需要 6D 位姿支撑的操作上寸步难行。根本原因在于,仅凭 RGB 视觉和语言指令,无法构建 “生成模型-真实物体-空间姿态” 的闭环关联——而机器人与物理世界的交互,恰恰依赖这种精准的空间感知。

基于此背景,由北京智源研究院、清华大学、南洋理工大学等机构联合提出的 OnePoseViaGen,给出了一套颠覆性解决方案:它不需要预设 3D 模型,仅凭一张参考图,就能通过 “单视图 3D 生成 + 粗精对齐 + 文本引导域随机化” 的组合拳,完成未知物体的 6D 位姿估计。在 YCBInEOAT、LM-O 等权威 benchmarks 上,它的表现远超 Oryon、Any6D 等主流方法,甚至能支撑机械臂完成灵巧抓取,成功率达到 73.3%—— 这无疑为具身智能补上了 “空间感知” 的关键一块。

所以,今天我们就来聊聊 OnePoseViaGen——让机器人真正 “看懂” 物体空间位置的具身智能新方案。

关键研究成果:OnePoseViaGen 框架

下面我们对 OnePoseViaGen的关键研究成果进行详细解读,整体流程如图 2 所示。遵循 “先解决 3D 模型缺失问题,再校准真实尺度与位姿,最后缩小域差距提升鲁棒性” 的递进逻辑,逐步突破单样本 6D 位姿估计的三大核心挑战,整体流程环环相扣,每个步骤的输出均为下一步的关键输入。

首先要明确任务的核心定义:已知单张 RGB-D 锚点图像 和查询图像 ,需估计物体从 坐标系到 坐标系的相对刚性变换 (包含旋转R和平移t),同时需确定尺度因子s,将生成的标准化模型校准到真实世界尺度。这一定义直接决定了后续方法需同时解决 “模型生成”“尺度 - 位姿对齐”“域适配” 三个关键问题。

基于法向量引导的 3D 纹理网格生成

从单张锚点图像出发,第一步要解决 “3D 模型缺失” 的问题。没有 3D 模型,就无法进行后续的位姿估计。这里选择基于单视图 3D 生成技术,以 Hi3DGen 为基础进行改进:

预处理:对单张 RGB-D 锚点图像进行分割,裁剪掉背景以减少噪声干扰;

法向量估计:通过图像到法向量的转换,生成物体表面法向量图X,确保几何一致性;

3D 生成:基于改进的 Hi3DGen 模型,输入裁剪后的图像 和法向量图X,生成标准化的 3D 纹理模型 (物体中心坐标系,尺度归一化)。

该步骤无需多视图或预训练 3D 模型,仅通过单图即可快速生成高保真的 3D 表示。

粗到精的尺度-位姿联合对齐

拿到标准化模型 后,核心矛盾转为 “如何将归一化模型与真实世界对齐”。由于 的尺度和位姿与 中的真实物体不匹配,直接使用会导致严重的位姿估计误差,因此设计了 “粗到精” 的两步对齐策略,确保精度逐步提升。

(1)粗对齐:快速获得一个合理的初始尺度和位姿。

多视图渲染:用相机内参K从n个球面视角渲染 ,生成多视图模板;

特征匹配:通过 SuperPoint 提取特征点,SuperGlue 匹配渲染视图与 的 2D 点对,选择匹配数最多的视图;

3D 点提升与 PnP 估计:利用深度信息将 2D 点对提升为 3D 点对,通过 Perspective-n-Point(PnP)算法估计初始 6D 位姿(含尺度模糊);

尺度优化:最小化 “渲染 3D 点经位姿变换后” 与 “真实 3D 点” 的 L2 误差,求解全局尺度因子 ,得到粗对齐位姿 和尺度

(2)精对齐:进一步优化位姿与尺度

基于粗对齐结果,进一步迭代优化提升精度:

位姿更新:采用改进的 FoundationPose 框架,通过 “渲染当前位姿的模型→与 计算差异→预测位姿增量 ” 的迭代方式,更新位姿;

尺度重优化:每次位姿更新后,重新运行粗对齐中的特征匹配与尺度优化,确保尺度一致性;

收敛条件:迭代至误差收敛或达到最大迭代次数,最终得到 metric 级 3D 模型 和其在 中的精准位姿

文本引导的生成式域随机化

生成的模型 本质上是基于单张锚点图像生成的,仅代表一个物体实例,缺乏真实世界中物体的外观多样性(如不同纹理、材质),且生成模型与真实图像在光照、背景、遮挡等方面存在明显域差距,直接用于查询图像的位姿估计会导致鲁棒性不足。因此设计了文本引导的生成式域随机化策略:

纹理多样化生成:以 和文本提示(如 “生成一系列真实的额温枪 3D 模型,纹理独特但结构一致”)为输入,通过 Trellis 模型生成结构一致、纹理多样的 3D 变体;

合成数据渲染:用 Blender 在随机光照、背景、遮挡条件下渲染这些变体,构建大规模合成数据集;

微调位姿估计器:用合成数据集微调 “渲染 - 比较” 网络,缩小生成模型与真实图像的域差距,提升对遮挡、光照变化的鲁棒性。

综合实践

当所有准备工作完成后,就可以对查询图像 进行位姿估计:

位姿估计:利用 metric 模型 ,采用 FoundationPose 的 “渲染 - 比较 - 选择” 策略,估计 中的位姿

相对变换计算:通过锚点与查询图像的绝对位姿,推导物体的相对 6D 变换:

核心结果1:基准数据集验证

通过与当前主流方法(Oryon、LoFTR、Gedi、Any6D、GigaPose)对比,OnePoseViaGen 在所有数据集上均实现性能超越,尤其在高挑战场景下优势显著。

YCBInEOAT 数据集(表 1)

表 1 量化了各方法在不同物体上的 ADD 和 ADD-S 指标,核心结论如下:

整体优势:OnePoseViaGen 平均 ADD 达 81.27%,平均 ADD-S 达 93.10%,远超其他方法 —— 例如 Oryon 平均 ADD 仅 1.1%、LoFTR 仅 4.0%、Any6D 仅 45.6%,即使是表现较好的 Gedi,平均 ADD 也仅 7.7%;

高挑战物体突破:在 “sugar box1”“tomato soup can yalehand0” 等基线方法失效的场景中,OnePoseViaGen 仍保持高准确率:

  • “sugar box1”:Any6D 的 ADD 仅 14.3%,而 OnePoseViaGen 达 75.63%;

  • “tomato soup can yalehand0”:Any6D 的 ADD 为 0.0%(完全失效),OnePoseViaGen 达 77.72%;

  • 这一结果证明,OnePoseViaGen 通过 “单图 3D 生成 + 尺度-位姿对齐”,解决了基线方法在 “无 3D 模型、单样本输入” 下的性能骤降问题。

TOYL 数据集(表 2)

TOYL 数据集聚焦复杂光照与远距离挑战,表 2 显示 OnePoseViaGen 在所有 BOP 指标上均领先:

AR 指标:OnePoseViaGen 达 55.7%,比次优方法 Any6D(43.3%)高 12.4 个百分点,比传统方法 SIFT(30.3%)高 25.4 个百分点;

距离类指标:MSSD(67.0%)、MSPD(65.1%)分别比 Any6D 高 11.2、6.7 个百分点,VSD(35.1%)更是比 Any6D(15.8%)高 19.3 个百分点;

关键结论:生成的 3D 模型提供了可靠的几何约束,减少了对纹理的依赖。

LM-O 数据集(表 3)

LM-O 是高遮挡无纹理场景的 “硬骨头”,表 3 和表 8(LM-O 各物体详细指标)显示 OnePoseViaGen 的显著优势:

整体 AR:达 74.8%,远超 GigaPose(17.5%)和 Any6D(28.6%),即使是无纹理的 “can”“holepunch” 等物体,AR 也能达到 87.3%、79.2%;

图 10(LM-O 定性结果)直观展示了性能:红色 / 绿色 / 蓝色线为模型坐标轴,粉色线为估计位姿的渲染轮廓,可见即使物体被严重遮挡(如 “driller” 被盒子遮挡),渲染轮廓仍与真实物体边缘高度重合,验证了方法的抗遮挡能力。

核心结果 2:真实机器人操作验证

基准数据集验证了 “算法精度”,真实机器人实验则验证 “落地实用性”,通过两类任务证明 OnePoseViaGen 可支撑精准抓取与协作:

实验设计

任务 1(单臂抓取 - 放置):15 种物体(如马克杯、积木、扳手),随机放置在 10×10cm 区域( orientation 随机 ±15°),需抓取后放置到指定托盘,成功标准为 “抓取稳定(提升≥5cm 无滑落)→运输无碰撞→放置后稳定 3 秒无倾倒”;

任务 2(双臂交接):Arm1 抓取物体→移动到交接区→Arm2 闭合夹爪(力传感器确认抓稳,阈值 5N)→Arm1 松开→Arm2 放置,成功需满足 “全流程无掉落、无碰撞”。

结果

OnePoseViaGen 的整体成功 rate 达 73.3%,远超基线方法 SRT3D(6.7%)和 DeepAC(16.7%)—— 基线方法因位姿估计误差大(如抓取时手部遮挡导致位姿偏移),常出现 “抓空” 或 “放置倾斜”;

定性结果:图 4 展示了实验过程,左列为锚点图像,中列为生成的 3D 模型,右列为机器人抓取时的位姿估计结果,可见生成的模型与真实物体纹理、结构高度一致,估计的位姿能精准指导机械臂抓取(如抓取芥末瓶时,灵巧手的指尖位置与物体轮廓匹配);

关键优势:即使在抓取过程中出现手部遮挡(如 XHAND1 的手指遮挡物体侧面),仍能通过 3D 模型的几何约束精准估计位姿,避免因遮挡导致的抓取失败。

核心结果 3:消融实验

消融实验聚焦 “粗到精对齐” 和 “生成式域随机化微调” 两大核心模块,通过 “移除模块→观察性能变化”,量化各模块的必要性,结果如表 4 所示,充分验证了粗到精对齐的必要性以及生成式域随机化微调是 “提升方法鲁棒性的关键”。

总结

OnePoseViaGen是首个单图 3D 生成与位姿估计融合的 pipeline,证明生成式建模可直接提升位姿估计性能,无需依赖 3D 模型或多视图。通过粗到精的尺度 - 位姿联合优化文本引导的域随机化真实场景验证,为 “长尾分布未知物体的精准操作” 提供了新方案,推动机器人从 “特定场景” 向 “开放世界” 交互迈进。

参考

[1]One View, Many Worlds: Single-Image to 3D Object Meets Generative Domain Randomization for One-Shot 6D Pose Estimation

内容概要:本文档介绍了基于3D FDTD(时域有限差分)方法在MATLAB平台上对微带线馈电的矩形天线进行仿真分析的技术方案,重在于模拟超MATLAB基于3D FDTD的微带线馈矩形天线分析[用于模拟超宽带脉冲通过线馈矩形天线的传播,以计算微带结构的回波损耗参数]宽带脉冲信号通过天线结构的传播过程,并计算微带结构的回波损耗参数(S11),以评估天线的匹配性能和辐射特性。该方法通过建立三维电磁场模型,精确求解麦克斯韦方程组,适用于高频电磁仿真,能够有效分析天线在宽频带内的响应特性。文档还提及该资源属于一个涵盖多个科研方向的综合性MATLAB仿真资源包,涉及通信、信号处理、电力系统、机器学习等多个领域。; 适合人群:具备电磁场与微波技术基础知识,熟悉MATLAB编程及数值仿真的高校研究生、科研人员及通信工程领域技术人员。; 使用场景及目标:① 掌握3D FDTD方法在天线仿真中的具体实现流程;② 分析微带天线的回波损耗特性,优化天线设计参数以提升宽带匹配性能;③ 学习复杂电磁问题的数值建模与仿真技巧,拓展在射频与无线通信领域的研究能力。; 阅读建议:建议读者结合电磁理论基础,仔细理解FDTD算法的离散化过程和边界条件设置,运行并调试提供的MATLAB代码,通过调整天线几何尺寸和材料参数观察回波损耗曲线的变化,从而深入掌握仿真原理与工程应用方法。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值