摘要
获取正确的像素级场景深度在各种任务中发挥着重要作用,如场景理解、自动驾驶、机器人导航、同时定位和建图、智能农业和增强现实。因此,这是过去几十年来研究的一个长期目标。获得场景深度的一种成本有效的方法是使用单目深度估计算法,从单个图像直接估计场景深度。然而,视觉方法通常产生低的推理精度和较差的可概括性,因此容易受到实际部署的影响。深度传感器以真实的场景尺度提供精确和稳健的距离测量,因此,它们更适用于需要安全保证和高性能的应用,例如自动驾驶汽车。事实上,在工业应用中,使用激光雷达测量深度可能仍然是获得可靠深度的最可部署方式。然而,无论是LiDAR还是常用的RGBD相机,如Microsoft Kinect,都无法提供密集的像素深度图。如图1所示,Kinect捕捉到的深度图有小孔,而LiDAR捕捉到的地图明显更稀疏,因此,在实践中有必要填充空白像素。
由于不同传感器捕获的深度图之间存在明显差异,因此补全问题和解决方案通常取决于传感器,它经常被称为深度增强[48]、[74]、[97]、深度修复[66]、[81]和深度去噪[28]、[97],其中的目标是从密集的原始深度图中推断缺失的深度值,并消除异常值。本文特别关注极稀疏数据的补全任务,例如,由激光雷达捕获的深度图,其中稀疏度通常超过95%。该问题在相关文献中单独研究和处理,并且由于稀疏输入的低密度而更具挑战性。为了简单起见,在本文的其余部分中,将极端数据的深度补全称为深度补全!
近年来,基于深度学习的方法在任务上表现出令人信服的性能,并引领了发展趋势。先前的工作表明,具有多个卷积层的网络或简单的自动编码器可以补全缺失的深度。此外,可以通过利用RGB信息进一步改进深度补全,这种类型的典型方法是使用双编码器分别从稀疏深度图及其对应的RGB图像中提取特征,然后将其与解码器融合。为了推动深度补全,最近的方法倾向于使用复杂的网络结构和复杂的学习策略,除了用于从多模态数据(例如图像和稀疏深度)中提取特征的多分支之外,研究人员已经开始将表面法线、亲和矩阵、残余深度图等集成到他们的框架中。此外,为了应对监督像素的缺乏,一些工作引入了利用多视图几何约束和对抗性正则化的方法,这些努力极大地促进了深度补全任务的进展。
本文旨在通过对现有方法进行分层分析和分类,描述基于学习的深度补全的发展,并为读者提供一些有价值的指导,对深度补全有一个直观的理解,通常,主要有以下问题:
-
1)实现高精度深度补全的以前方法的共同特点是什么?
-
2)与非引导方法相比,RGB引导方法的优点和缺点是什么?
-
3)由于以前的大多数工作都采用了视觉和激光雷达数据,那么多模态数据融合的最有效策略是什么?
-
4)当前的挑战是什么?
图2显示了基于建议分类法的选定方法的时间线,其中底部和顶部分别显示了非引导方法和五种RGB引导方法!可以看出,尽管早期研究以非引导方式处理深度补全,但本文观察到,2020年后发表的研究逐渐被RGB引导方法所主导。在这篇文章中,作者从网络结构、损失函数、学习策略和基准数据集等方面考察了以往的研究,特别强调提出新算法或显著性能提升的方法,并适当提供其技术贡献的视觉描述,以促进澄清。此外,论文在最流行的基准数据集上对具有基本特征的现有方法进行了定量比较。通过对以往研究的深入分析,希望读者能够对深度补全有一个清晰的理解。
基于深度学习的深度补全
本节中首先给出深度补全任务的通用公式,然后概述了建议的分类法。注意到一些方法有共同的特点,作者通过共同考虑网络结构和主要技术贡献对它们进行分组。
通过联合考虑网络结构和主要技术贡献,论文提出了一种详细的分类法。现有方法首先被分类为非引导方法或RGB引导方法。然后,将其进一步分类为更具体的子类别。表1给出了建议的分类法的概述,并描述了识别类别的主要因素,如图所示,非引导方法有三个子类,包括方法1)使用稀疏性感知CNN,2)使用归一化CNN,以及3)使用辅助图像进行训练。引导方法包括五个子类,其中一些还具有更具体的类。对于第一类和第二类,即早期融合和晚期融合模型,融合策略是本文分类法中考虑的主要因素,对于后三类,即显式3D表示模型、残差深度模型和基于空间传播网络(SPN)的模型,融合策略不是识别其类型的主要因素,因为它们具有不同的特征,早期融合和晚期融合都在以前的方法中使用。对于大多数方法,论文发现它们在准确性方面的优势是模型复杂度方面的劣势,反之亦然。幸运的是,大多数方法在标准基准数据集上提供了定量结果。这些研究使我们能够公平地分析和比较他们的表现!
非引导深度补全
给定稀疏的深度图,非引导方法的目标是直接用深度神经网络模型补全它。以前的方法通常可以分为三组:使用1)稀疏感知CNN的方法,2)归一化CNN,和3)使用辅助图像进行训练的方法。
在卷积操作期间使用二进制掩码识别有效和缺失的元素使得标准CNN能够更好地执行稀疏深度输入,Uhrig等人[109]提出了第一种基于深度学习的非引导方法。他们首先验证了正常卷积无法处理稀疏输入,因为它们通常会导致马赛克效应,并提出了一种新的稀疏卷积操作。然后引入了一个由所提出的稀疏卷积组合而成的6层CNN,稀疏卷积使用二进制有效性掩码来区分有效值和缺失值,并仅在有效数据之间执行卷积,有效性掩码的值由其本地邻居通过最大池化确定。第一种基于深度学习的方法优于非学习方法,并显示了深度学习在任务中的潜力。此外,它启发了许多后续研究。然而,稀疏卷积不适合直接应用于经典的编码器-解码器网络,后者可以充分利用多尺度特征。Huang等人[48]引入了三种稀疏不变(SI)操作,包括SI上采样、SI平均和SI级联,并构建了基于HSMNet的编码器-解码器。他们还通过向HSMNet添加一个小分支,演示了一个使用RGB输入的应用程序!
用连续的置信度图替换二进制有效性掩码可以获得更好的完成性能,稀疏性感知方法需要有效性掩码来识别执行卷积的缺失值。如[22]、[54]和[112]所述,由于CNN中早期层的掩模饱和,有效性掩模会降低模型性能。为了解决这一问题,在归一化卷

本文综述了基于深度学习的激光雷达深度补全技术,探讨了高精度方法的共性、RGB引导的优势与挑战、多模态融合策略,以及当前面临的深度补全问题。作者通过详细分类和对比,为深度补全的理解提供了清晰路径。
最低0.47元/天 解锁文章
4808

被折叠的 条评论
为什么被折叠?



