3D场景理解Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding

论文作者:Jinlong Li,Cristiano Saltori,Fabio Poiesi,Nicu Sebe

作者单位:University of Trento ;Fondazione Bruno Kessler

论文链接:http://arxiv.org/abs/2503.16707v1

项目链接:https://github.com/TyroneLi/CUA_O3D

内容简介:

1)方向:3D场景理解

2)应用:3D场景理解

3)背景:目前缺乏大规模的3D文本语料库,这导致现有的研究通常依赖单一的视觉语言模型(VLM)来对齐3D模型的特征空间。但这种方法仅使用单一的VLM,限制了3D模型在多样化空间和语义能力上的潜力,未能充分利用不同基础模型所 encapsulated的空间和语义特性。

4)方法:为了克服这些挑战,提出了CUA-O3D方法,该方法是第一个将多个基础模型(如CLIP、DINOv2和Stable Diffusion)整合到3D场景理解中的模型。此外,还引入了确定性的不确定性估计方法,用于自适应地提炼和协调来自不同模型的异构2D特征嵌入。该方法解决了两个关键问题:(1)将VLM中的语义先验与空间感知视觉基础模型的几何知识结合,(2)通过创新的确定性不确定性估计,捕捉不同模型在语义和几何敏感度上的特定不确定性,帮助在训练过程中协调异构表示。

5)结果:在ScanNetV2和Matterport3D数据集上的广泛实验结果表明,该方法不仅在开词汇分割上取得了进展,还实现了稳健的跨领域对齐和具有竞争力的空间感知能力,展示了其在3D场景理解中的优势和创新性。代码:https://github.com/TyroneLi/CUA_O3D

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Qing_er爱吃山竹

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值