Abstract
这段文字介绍了一种无需真实数据(ground truth)进行训练的自监督单目深度估计方法,该方法近年来备受关注。重点在于设计轻量级但有效的模型,以便能够在边缘设备上部署。许多现有架构通过使用更重的骨干网络来提升性能,但代价是模型的体积增大。本文提出了一种名为Lite-Mono的混合架构,既轻量级又能实现与现有方法相当的效果。
具体来说,本文研究了卷积神经网络(CNNs)和变换器(Transformers)的高效结合,提出了一个混合架构Lite-Mono。该架构包含两个模块:连续膨胀卷积模块(CDC)和局部-全局特征交互模块(LGFI)。CDC模块用于提取丰富的多尺度局部特征,而LGFI模块利用自注意力机制将长程全局信息编码到特征中。实验结果表明,Lite-Mono在准确性上大幅优于Monodepth2,同时可训练参数减少了约80%。
1. Introduction
许多机器人技术、自动驾驶和增强现实应用依赖于深度图来表示场景的3D几何结构。由于深度传感器会增加成本,因此从图像中推断深度图的卷积神经网络(CNNs)研究应运而生。有了标注的深度,可以训练回归CNN来预测单张图像上每个像素的深度值【10, 11, 22】。由于缺乏大规模准确的密集地面真实深度用于监督学习,自监督方法通过立体帧对或单目视频寻求监督信号受到青睐,并且近年来取得了很大进展。这些方法将深度估计任务视为新视图合成问题,最小化图像重建损失【5, 14, 15, 41, 45】。使用立体帧对时,摄像机运动是已知的,因此采用单个深度估计网络来预测深度。但如果仅使用单目视频进行训练,则需要额外的位姿网络来估计摄像机的运动。尽管如此,仍然更倾向于仅需单目视频的自监督方法,因为收集立体数据需要复杂的配置和数据处理。因此,本文也关注单目视频训练。
除了通过引入改进的损失函数【15】和语义信息【5, 21】来提高单目训练的准确性,以减轻遮挡和运动物体问题,许多研究致力于设计更有效的CNN架构【17, 33, 39, 41, 46】。然而,CNN中的卷积操作具有局部感受野,无法捕捉长程全局信息。为了获得更好的结果,基于CNN的模型可以使用更深的骨干网络或更复杂的架构【15, 28, 44】,这也导致模型尺寸增大。最近引入的视觉Transformer(ViT)【8】能够建模全局上下文,一些最新工作将其应用于单目深度估计架构【3, 35】,以获得更好的结果。然而,与CNN模型