Lite-Mono：一种轻量级的CNN和Transformer架构，用于自监督单目深度估计

最新推荐文章于 2025-10-06 01:26:05 发布

原创

最新推荐文章于 2025-10-06 01:26:05 发布 · 2.8k 阅读

49 ·

CC 4.0 BY-SA版权

文章标签：

#cnn #transformer #人工智能 #计算机视觉 #神经网络 #3d

Abstract

这段文字介绍了一种无需真实数据（ground truth）进行训练的自监督单目深度估计方法，该方法近年来备受关注。重点在于设计轻量级但有效的模型，以便能够在边缘设备上部署。许多现有架构通过使用更重的骨干网络来提升性能，但代价是模型的体积增大。本文提出了一种名为Lite-Mono的混合架构，既轻量级又能实现与现有方法相当的效果。

具体来说，本文研究了卷积神经网络（CNNs）和变换器（Transformers）的高效结合，提出了一个混合架构Lite-Mono。该架构包含两个模块：连续膨胀卷积模块（CDC）和局部-全局特征交互模块（LGFI）。CDC模块用于提取丰富的多尺度局部特征，而LGFI模块利用自注意力机制将长程全局信息编码到特征中。实验结果表明，Lite-Mono在准确性上大幅优于Monodepth2，同时可训练参数减少了约80%。

1. Introduction

许多机器人技术、自动驾驶和增强现实应用依赖于深度图来表示场景的3D几何结构。由于深度传感器会增加成本，因此从图像中推断深度图的卷积神经网络（CNNs）研究应运而生。有了标注的深度，可以训练回归CNN来预测单张图像上每个像素的深度值【10, 11, 22】。由于缺乏大规模准确的密集地面真实深度用于监督学习，自监督方法通过立体帧对或单目视频寻求监督信号受到青睐，并且近年来取得了很大进展。这些方法将深度估计任务视为新视图合成问题，最小化图像重建损失【5, 14, 15, 41, 45】。使用立体帧对时，摄像机运动是已知的，因此采用单个深度估计网络来预测深度。但如果仅使用单目视频进行训练，则需要额外的位姿网络来估计摄像机的运动。尽管如此，仍然更倾向于仅需单目视频的自监督方法，因为收集立体数据需要复杂的配置和数据处理。因此，本文也关注单目视频训练。

除了通过引入改进的损失函数【15】和语义信息【5, 21】来提高单目训练的准确性，以减轻遮挡和运动物体问题，许多研究致力于设计更有效的CNN架构【17, 33, 39, 41, 46】。然而，CNN中的卷积操作具有局部感受野，无法捕捉长程全局信息。为了获得更好的结果，基于CNN的模型可以使用更深的骨干网络或更复杂的架构【15, 28, 44】，这也导致模型尺寸增大。最近引入的视觉Transformer（ViT）【8】能够建模全局上下文，一些最新工作将其应用于单目深度估计架构【3, 35】，以获得更好的结果。然而，与CNN模型相比，Transformer中的多头自注意力（MHSA）模块的高计算量阻碍了轻量级和快速推理模型的设计【35】。

本文追求一种轻量且高效的自监督单目深度估计模型，采用混合CNN和Transformer架构。在所提出的编码器的每个阶段中，采用<