最新突破!浙大&华为:PanopticRecon++实现机器人端到端全景重建

基于二维视觉语言模型的开放世界的分割重建因其在Real-to-Sim起到重要作用而受到机器人领域的广泛关注。然而,现有方法受限于对场景空间几何理解的缺乏和分阶段方法的误差累积,限制了其在复杂环境中的分割精度的提升。针对这一问题,浙江大学熊蓉、王越团队与华为云具身智能实验室共同提出一种名为PanopticRecon++的分割重建新范式,通过交叉注意力机制联合三维空间先验与语义分割特征,实现端到端的开放词汇全景重建。

©️【深蓝AI】编译

本文由paper一作——Xuan Yu 授权【深蓝AI】编译发布!

论文标题:Leverage Cross-Attention for End-to-End Open-Vocabulary Panoptic Reconstruction

论文作者:Xuan Yu, Yuxuan Xie, Yili Liu, Haojian Lu, Rong Xiong, Yiyi Liao, Yue Wang

论文地址:https://arxiv.org/abs/2501.01119

论文主页:https://yuxuan1206.github.io/panopticrecon_pp/

具体而言,该方法引入可学习的3D高斯分布的实例token,巧妙结合几何先验与分割特征,同时动态调整实例token个数。分割网络上增加参数无关的全景输出端,确保了语义-实例的一致性。团队在Replica、ScanNet-V2和ScanNet++数据集上进行了验证,实验结果表明,PanopticRecon++在全景分割、2D/3D语义/实例分割和几何重建等方面均显著优于现有方法。

通过实验分析发现:

(1) 基于实例token的三维高斯分布的空间先验弥补二维视野信息的局限性,可避免场景中重复实例ID,显著提升场景实例分割的精度;

(2) 参数无关的全景输出端与统一全景损失函数确保了语义与实例标签的一致性和高精度。

团队的研究成果验证了基于交叉注意力机制的开放词汇全景重建新范式的有效性,为机器人真实世界仿真平台的构建提供了强有力的技术支持。

01 引言

全景重建通过整合3D几何、外观、语义和实例信息,提供了对环境的全面理解,这对于人机交互中的具身机器人以及逼真仿真具有重要价值。特别是,开放词汇全景重建能够感知开放世界中的任何对象类别,使机器人具备即插即用的能力。

由于三维数据高昂的采集与标注成本,当前三维分割场景方法多选择将2D视觉语言模型的泛化能力提升到3D辅助三维开放词汇场景理解。

▲图1©️【深蓝AI】编译

基于2D基础模型的端到端开放词汇全景重建面临三个挑战:

不对齐问题:跨帧的2D实例ID未对齐;

标签歧义问题:由于相机视野有限,从未在同一图像中同时出现的两个对象可能是同一实例或不同实例;

不一致问题:从两个独立分支获得的语义分割和实例分割结果无法保证一致。

02 研究工作

▲图2| PanopticRecon++流程图©️【深蓝AI】编译

2.1. 基于交叉注意力机制的分割方案

交叉注意力机制基于两种token之间的相似性来聚合特征。在使用交叉注意力的分割模型中,每个实例由一个查询token表示,而3D空间中的每个点由一个键token表示。对应的值表示该点的语义特征。注意力图则表示每个查询token和键token之间的相似性。从交叉注意力机制的角度,我们分析了利用2D视觉语言模型(VLM)掩码的现有3D全景重建方法的优劣, 得出结论:

理想的实例分割的关键在于结合端到端和空间先验的优势:在查询和键中同时编码空间先验和掩码引导的特征。

2.2. 3D高斯建模的实例token

为支持在注意力图中同时引入空间先验和掩码特征, PanopticRecon++构建实例token作为3D实例的表征,并为实例token引入了一种可学习的椭球形状先验,即为3D高斯建模的实例token(图3)。每个实例token编码为一个3D高斯分布,同时还包含实例特征。3D高斯建模的token提供了合理的3D物体空间先验,并简化了建立多种形状先验的复杂任务。 因为空间先验被编码为高斯分布,我们将注意力图Aij设计为:

A_{ij} = \frac{\exp S(f_q, f_k)G(p_q, p_k)}{\sum_j \exp S(f_q, f_k)G(p_q, p_k)}

其中s为掩码特征相似度:

S(f_q, f_k) = \sigma(f_q^T f_k)

s为空间先验:

G(p_q, p_k) = \frac{P(p_k | p_q, \Sigma)}{P(p_q | p_q, \Sigma)}

其中,P(⋅∣⋅)表示具有指定均值和协方差的高斯分布的概率密度。S的可视化如图4所示。三维高斯建模遵循一个假设,即实例的点集中在其质心周围的局部区域内。通过结合高斯先验S与掩码特征S,得到的注意力图近似于聚类,并保持了可微性。这种空间先验辅助的注意力机制避免了将从未在同一图像中一起观察到的孤立物体错误地分组为单个实例。

▲图3|3D高斯建模的实例token与基于交叉注意力的分割机制©️【深蓝AI】编译

▲图4|实例token分割过程可视化©️【深蓝AI】编译

2.3. 端到端全景重建

如图2示,PanopticRecon++使用四个场来表示场景:外观、几何、语义和实例。几何场和语义场由两个独立的多层级哈希编码的神经场和小型解码器共同构成。实例场由神经场编码,并结合与实例tokens之间的交叉注意力机制实现实例分割。外观场使用3DGS以高效拟合场景的复杂纹理。

此外,PanopticRecon++引入了一个连接语义场和实例场的无参数全景输出端(如图5),用于直接预测全景标签,从而对齐来自两个分支的语义掩码和实例掩码。

▲图5|全景分割网络架构图©️【深蓝AI】编译

03 实验与结果

团队在多个室内公开场景数据集上进行对比和消融实验,以评估方法性能,实验结果如下。

3.1. 分割性能

团队分别进行了2D和3D的场景级别的全景、语义和实例分割性能的对比实验,与图像级实例/全景分割不同,场景级分割要求跨图像的唯一 ID。图6和下表展示了在ScanNet-V2数据集上的分割效果。可以看出,PanopticRecon++ 在所有序列和数据集上均表现出最佳全景分割性能,这归功于其交叉注意力机制,该机制同时支持空间先验和来自实例损失的反向传播。同时端到端学习提升了性能,避免了分阶段误差累积的问题。

图6进一步展示了实例标签和语义标签的一致性程度,相较其他独立分支预测语义与实例的方法,得益于全景输出端的设计,PanopticRecon++的语义掩码与实例掩码完全一致。同时语义标签可自动根据实例分割结果进行错误标签修正。

图7展示了全景mesh和语义mesh的分割重建效果,圈出的红框强调了几何先验在处理非共帧不同实例物体时的优势,解决了仅依靠2D分割图像监督的实例ID歧义问题,避免了空间中冗余的实例ID。

▲图6| 分割效果对比图©️【深蓝AI】编译

3.2. 几何重建

如下表所示,团队提出的方法在 Replica 和 ScanNet++上的重建精度均小于 1cm,在 ScanNet-V2 上小于 3cm,显著优于其他方法。与传统重建方法相比,团队的方法利用多级特征网格和紧凑的 MLP 来表示 SDF 表面,通过正则化项增强了表面的平滑性和完整性。综合考虑全景分割和重建,PanopticRecon++ 在3D 分割指标基础上,贡献了更优的性能。图7中可视化了一些按全景类别和语义类别着色的网格。如图所示,PanopticRecon++ 生成了更平滑的墙面和地板表面,以及更细致的小物体(例如键盘和鼠标)。

▲图7| 分割重建效果对比图©️【深蓝AI】编译

3.3. 消融实验

最后,团队探讨通过消融实验分析了 PanopticRecon++ 的四个关键设计选择:实例空间先验(Prior)、tokens的动态调整机制(Adj.)、全景输出端(Pan.)和实例级类别特征(h_{SI})。消融研究的结果下表所示。

实验发现缺乏动态调整会导致过分割,显著降低分割性能。这主要归因于独立优化的二值掩码的冗余和重叠,导致实例数量过多。当仅应用动态调整时,移除重叠和交叉的二值掩码会显著提升性能。有趣的是,这一结果与 PL 方法的分割性能相似。这表明仅依赖 2D 监督可能导致不同对象被错误地分配相同的实例 ID,特别是对于未在同一图像中同时出现的对象,从而导致分割性能大幅下降。通过将实例空间先验与动态调整相结合,团队的方法展现了实例标记和空间先验的优势,从而显著提升了全景分割和实例分割的性能。

为了进一步验证提出的全景输出端在全景分割中的有效性及其对齐语义和实例标签的能力,团队进行了两组推理实验:一组直接从语义分支查询语义标签,另一组用实例语义标签替换实例掩码。实验表明,使用实例语义标签的推理策略具有更好的语义分割性能。这是因为避免了由于视角变化导致的 2D 基础模型语义检测错误带来的负面影响。此外,两组实验均显示 PQ 相比没有全景头的模型有所提升,这归功于全景头基于贝叶斯规则的语义和实例整合能力。

3.4. 应用案例

本节中展示了系统在机器人仿真中的可行性。团队将从 ScanNet++ 的三个场景中训练的模型生成的网格加载到 Gazebo 中,以确保机器人与环境之间的物理交互。给定 Gazebo 中的目标后,机器人 Jackal UGV 开始导航。在遍历过程中,Gazebo 引擎集成了相机位姿,并在此基础上通过 PanopticRecon++ 的新视角合成渲染出逼真的 RGB 图像、深度图像和全景分割图像。这些视图可被视为机器人传感器输入,以激活仿真中的算法。

04 结论

在本文中,团队提出一种端到端的开放词汇全景重建方法,结合了多分支神经场和可学习的 3D 高斯建模的实例token。从交叉注意力机制的角度,团队将分割特征与空间先验相结合,实现了token坐标的反向传播,从而无需后处理即可解决 3D 实例歧义问题。显式实例token支持训练期间可控的 3D 实例初始化和动态调整。此外,无参数的全景输出端确保了语义和实例标签的一致性和高精度。团队在模拟和真实数据集上评估了 PanopticRecon++ 的分割、重建和渲染性能。结果表明,该方法实现了全局一致的 3D 分割和 3D 场景重建,展现了具有竞争力的性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值