大多数用于室内空间感知的现有商用深度传感器(例如Kinect、Re- alSense和 Xtion)都不够强大,无法生成精确的无损深度图,传感器通常会因为透明、闪光和暗表面以及太近或者太远的边缘而产生许多无效深度像素的洞区。即有深度缺失的深度图,这里引出了深度补全。与深度图像相比,RGB图像有丰富的色彩和纹理信息。因此应用对齐后的RGB图像来指导深度补全。总结:深度补全任务通常是使用一个深度传感器捕获的一对原始深度图和RGB图像来完成和细化深度图。
用CNN完成深度补全,用编码器-解码器结构从稀疏深度图和RGB图像中提取密集深度图,有进步,但密集深度图过于模糊。为了生成更精细的深度图,可分为两组,(1)学习相对像素的亲和力,并迭代地细化深度预测。这些方法高度依赖于原始全局深度图的准确性,并遭受推断效率低下的困扰。
知识点:学习相对像素的亲和力并迭代地细化深度预测是一种用于计算机视觉任务中的深度估计方法。该方法旨在通过学习像素之间的相对关系来预测场景中物体的深度信息。
首先,该方法使用卷积神经网络(CNN)来提取图像的特征表示。这些特征表示可以捕捉到图像中不同物体的语义信息。
然后,通过引入亲和力图(Affinity Map),该方法将学习像素之间的相对关系。亲和力图表示了图像中每个像素与其周围像素之间的相似度。这种相似度可以根据像素之间的颜色、纹理等特征进行计算。
接下来,通过迭代地细化深度预测,该方法逐步提高对深度信息的准确性。在每一次迭代中,通过结合当前深度预测和亲和力图,可以得到更准确的深度估计结果。这个过程可以反复进行多次,直到达到满意的深度预测结果。
总结起来,学习相对像素的亲和力并迭代地细化深度预测是一种利用卷积神经网络提取特征、学习像素之间相对关系,并通过迭代细化深度预测的方法,用于计算机视觉中的深度估计任务。
(2)分析几何特征并相应地调整特征网络结构,例如,通过估计表面法线或将深度投影到离散平面上。这些方法要求深度完备性,不能缺少区域,模型参数可能无法有效地推广到不同的场景。
在任何情况下,RGB图像都只是作为表面的指导或辅助信息,很少有方法深入考虑纹理和上下文信息。此时,深度补全任务或多或少被降级为概念上简单但实际上困难的单目深度估计任务。
更值得注意的是,上述大多数方法都是均匀随机地从密集深度图像 d 中抽取一定数量的有效像素draw
和 dgt来模拟稀疏深度图 d∗分别用于训练和评估。这样的采样策略在某些场景下是可信的,比如LiDAR 生成的室外距离视图深度图。然而,在室内深度图中,采样的模式与真实的缺失模式有很大的不同,例如图所示的大缺失区域和语义缺失模式。
因此,尽管现有的方法被证明对于完成均匀稀疏的深度图是有效的,但对于室内深度补全来说,它们是否表现得足够好还有待验证。
------重点--------
为了解决这些问题,我们提出了一种新颖的双分支端到端网络,用于生成室内环境的完整密集深度图。受生成对抗网络(GANs)的启发,我们引入了 RGB-深度融合 GAN (RDF-GAN),用于融合 RGB 图像和深度图。**RDF-GAN 通过不完全深度图生成的潜在空间向量,将 RGB域的条件 RGB图像映射到深度域的密集深度图。**在加权自适应实例归一化(W-AdaIN)模块和局部引导模块的帮助下,我们进一步设计了一个约束网络来限制融合图的深度值。之后,一个置信度融合头完成最终的深度图补全。
此外,我们提出了一种开发技术,该技术对原始深度图像进行采样,以生成用于训练的伪深度图。根据室内深度缺失的特点,我们利用 RGB 图像和语义标签来生成原始深度图的掩蔽区域,这比简单的均匀采样更真实。
知识点补充:
利用RGB图像和语义标签生成原始深度图的掩蔽区域是一种常见的计算机视觉任务,可以用于场景理解、图像分割等应用。下面是一种常见的方法:
-
数据准备:首先需要准备RGB图像和对应的语义标签。RGB图像是彩色图像,语义标签是对每个像素进行分类的标签图像,每个像素点都有一个对应的类别标签。
-
特征提取:使用深度学习模型(如卷积神经网络)对RGB图像进行特征提取。这些特征可以捕捉到图像中的纹理、形状等信息。
-
语义分割:使用训练好的语义分割模型对RGB图像进行分割,得到每个像素点的语义标签。
-
深度估计:使用深度学习模型(如卷积神经网络)对RGB图像进行深度估计。这个模型可以学习到RGB图像与深度图之间的关系。
-
掩蔽区域生成:将语义标签中的某些类别(如背景)作为掩蔽区域,将深度估计中对应的像素点设为无效值(如0或负值),即生成掩蔽区域。
实验表明,从伪深度图中学习的模型可以更有效地填补室内捕获的原始深度图像的大面积缺失区域。
我们的主要贡献总结如下:
•我们提出了一种新颖的端到端基于 gan 的网络,该网络有效地融合了原始深度图和 RGB 图像,以再现合理的密集深度图。
•我们设计并利用了与室内场景中原始深度缺失分布一致的伪深度图。使用伪深度图进行训练可以显著提高模型的深度补全性能,特别是在更逼真的室内环境设置中。
•我们提出的方法在 NYU-Depth V2和 SUN RGB-D上实现了最先进的深度完成性能,并证明了其在提高下游任务性能(如目标检测)方面的有效性。