【论文笔记】DepthLab: From Partial to Complete

是一篇很精炼的论文,不知道咋总结了,就差全文翻译了,不过在这里我主要关注3D部分,因为他的pipeline是基于SD的,框图也比较清晰易懂,非常细节的内容可以回头看论文,哈哈哈,给作者大佬们点赞

1.abstract

        由于数据采集不完整和视角改变等多种原因,缺失值仍然是深度数据在广泛应用中的常见挑战。 这项工作通过 DepthLab 弥补了这一差距,DepthLab 是一种由图像扩散先验支持的基础深度修复模型我们的模型具有两个显着的优势:(1)它表现出对深度不足区域的弹性,为连续区域和孤立点提供可靠的补全,(2)在填充缺失值时,它忠实地保持了与条件已知深度的尺度一致性。 凭借这些优势,我们的方法在各种下游任务中证明了其价值,包括 3D 场景修复、文本到 3D 场景生成、使用 DUST3R 的稀疏视图重建以及 LiDAR 深度补全,在数值性能和性能方面都超过了当前的解决方案

2.Introduction

        深度修复是重建图像中丢失或遮挡的深度信息的任务,在许多领域都至关重要,包括 3D 视觉 [25, 34, 91]、机器人 [1, 32] 和AR [53, 61]。 如图 1 所示,强大的深度修复模型可以实现高质量的 3D 场景完成、编辑、重建和生成。 先前的深度修复研究可分为两种主要方法。 第一种方法 [12,26,48,65,71,89] 侧重于将全局稀疏 LiDAR 深度 [16] 数据完成为密集深度,通常在固定数据集上进行训练和测试。 然而,这些模型缺乏通用性,并且在不同下游任务中的适用性有限。 第二种方法[15,31,72,75,77]采用单目深度估计器来推断单个图像的深度,将修复区域与已知深度对齐。 由于估计深度与现有几何形状之间的不对准,这些方法经常会出现严重的几何不一致,特别是沿边缘最近的研究 [41] 将 RGB 图像合并到 UNet 输入中,作为训练深度修复模型的指导,但在复杂场景和修复大的缺失区域时,其性能仍然不理想。

        为此,我们提出了 DepthLab,一种 RGB 图像条件深度修复的基础模型,它引入了双分支深度修复扩散框架。 具体来说,该框架通过参考 U-Net 处理单个参考图像,提取 RGB 特征作为条件输入同时,已知深度和需要修复的掩模指示区域被输入深度估计 U-Net提取的 RGB 特征逐渐逐层集成到深度估计 U-Net 中,以指导修复过程。在训练过程中,我们对已知深度应用随机尺度归一化,以减轻已知区域中非全局极值引起的正则化溢出。 与 Marigold [31] 类似,我们的模型仅需要合成 RGBD 数据即可在几天的 GPU 内进行训练。 受益于扩散模型强大的先验,DepthLab在不同场景下展现出强大的泛化能力。

        如图1所示,得益于精确的深度修复,DepthLab支持多种下游应用。 (1) 3D场景修复[41]:在3D场景中,我们首先从摆好的参考视图中修复图像修复区域的深度,然后将点投影到3D空间中以实现最佳初始化,这显着提高了质量和速度 3D场景修复 (2) 文本到场景生成[83]:我们的方法通过消除对齐的需要,极大地改进了从单个图像生成 3D 场景的过程。这一改进有效地缓解了边缘分离的问题 之前由于修复和已知深度之间的几何不一致而产生的问题,从而显着增强了生成场景的连贯性和质量。(3)基于DUST3R的稀疏视图重建:InstantSplat[14]利用DUST3R[68]中的点云作为无SfM重建和新视图合成的初始化。通过将噪声作为潜在输入添加到DUST3R深度图中,我们的方法对缺乏交叉视点对应的区域的深度进行细化,从而产生更精确、几何一致的深度图。这些精细化的深度贴图进一步增强了InstantSplat的初始点云

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值