兼容任意相机!博世 & CMU开源Zero-Shot深度估计新SOTA!

0. 论文信息

标题:Depth Any Camera: Zero-Shot Metric Depth Estimation from Any Camera

作者:Yuliang Guo, Sparsh Garg, S. Mahdi H. Miangoleh, Xinyu Huang, Liu Ren

机构1Bosch Research North America、Carnegie Mellon University、Simon Fraser University

原文链接:https://arxiv.org/abs/2501.02464

代码链接:https://github.com/yuliangguo/depth_any_camera

1. 导读

虽然最近的深度估计方法表现出很强的零镜头泛化能力,但在不同类型的相机上实现精确的度量深度仍然是一个重大挑战,特别是那些具有大视场(FoV)的相机,如鱼眼和360度相机。本文介绍了深度任意相机(DAC),这是一个强大的零拍摄度量深度估计框架,它扩展了透视训练模型,以有效地处理具有不同FOV的相机。该框架旨在确保可以利用所有现有的3D数据,而不管新应用中使用的具体相机类型。值得注意的是,DAC专门针对透视图像进行训练,但可以无缝推广到鱼眼和360度相机,而无需专门的训练数据。DAC采用等矩形投影(ERP)作为统一的图像表示,能够对具有不同FOV的图像进行一致的处理。它的关键组件包括一个俯仰感知图像到ERP的转换,用于ERP空间中的高效在线增强,一个FoV对齐操作,用于支持跨各种FoV的有效训练,以及多分辨率数据增强,用于解决训练和测试之间的分辨率差异。DAC实现了最先进的零炮度量深度估计,提高了delta-1(δ1)与之前的公制深度基础模型相比,在多个鱼眼和360度数据集上的精度高达50%,证明了跨相机类型的稳健泛化。

2. 效果展示

Depth Any Camera (DAC) 是一个强大的零样本深度估计框架,可以将一个透视训练模型扩展到处理任何类型的相机,有效地处理各种FoV。值得注意的是,DAC 可以 专门在透视图像上进行训练 ,但它无缝地推广到 鱼眼 和 360 摄像头,无需专业训练数据。

图片

深度任意相机(DAC)的零拍摄公制深度估计结果在ScanNet++鱼眼视频上可视化,并与Metric3D-v2进行比较。相对于真实情况的相对误差的可视化突出了DAC的优越性能。此外,我们展示了DAC在360度图像上的应用,其中深度估计的单次正向传递实现了完整的3D场景重建。

图片

图片

3. 方法

我们的DAC框架将来自任何相机类型的数据转换到规范的ERP空间,允许在透视图像上训练的模型在一致的空间中处理大FoV测试数据,以进行度量深度推断。在培训期间,开发了一种有效的图像到ERP的转换,以便能够直接在ERP空间中进行在线数据扩充,这是一种广泛证明对透视图像有效的方法。通过提议的FoV-Align过程,高度变化的FoV数据适应于单个预定义的ERP补丁大小,从而最大化训练效率。在推断过程中,可以将来自任何相机类型的图像转换到ERP空间以进行度量深度估计,并且可以选择将ERP输出映射回原始图像空间以进行可视化。

图片

4. 实验结果

图片

5. 总结 & 未来工作

(DAC)框架,用我们引入了Depth AnyCamera于在各种摄像头类型(包括透视、鱼眼和360°摄像头)上进行零样本度量深度估计。通过利用高度有效的俯仰角感知lmage-to-ERP转换、视场角对齐和多分辨率训练,DAC解决了因视场角和分辨率不-致而带来的挑战,并在大视场角数据集上实现了稳健的泛化。我们的结果表明,DAC显著优于最先进的方法,并能无缝适应不同的骨干网络。在实践中,无论新应用中使用何种相机类型,DAC都能确保之前收集的每一张3D数据都保持有价值。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值