(2022 ECCV)RA-Depth: Resolution Adaptive Self-Supervised Monocular Depth Estimation

本文提出分辨率自适应自监督单目深度估计方法RA - Depth。现有自监督方法在不同分辨率下性能下降,RA - Depth通过任意尺度数据增强、双HRNet和跨尺度深度一致性损失,促使模型学习场景深度尺度不变性。实验表明,该方法在多数据集达先进水平,且分辨率适应能力良好。

在这里插入图片描述

Abstract

现有的自监督单目深度估计方法可以摆脱昂贵的标注,并取得良好的效果。然而,当直接采用固定分辨率训练的模型在其他不同分辨率下进行评估时,这些方法的性能会严重下降。本文通过学习场景深度的尺度不变性,提出了一种分辨率自适应自监督单目深度估计方法(RA-Depth)。具体来说,我们提出了一种简单而有效的数据增强方法,可以为同一场景生成任意尺度的图像。然后,我们开发了一个双高分辨率网络,该网络使用具有密集交互的多路径编码器和解码器来聚合多尺度特征以进行准确的深度推断。最后,为了明确学习场景深度的尺度不变性,我们在不同尺度的深度预测上建立了一个跨尺度的深度一致性损失。在KITTI、Make3D和NYU-V2数据集上的大量实验表明,RA-Depth不仅达到了最先进的性能,而且具有良好的分辨率适应能力。

1 Introduction

单目深度估计[38,5,21,25,20,6]从单个图像中恢复逐像素深度图,这是计算机视觉中具有挑战性但又必不可少的任务。它推动了自动驾驶、机器人导航、3D场景重建和增强现实等各种应用的发展。由于不同应用场景下采集设备的不同,采集到的图像分辨率也不同。因此,为了减少资源的消耗,如何对单个训练模型进行单目深度估计以自监督的方式适应图像分辨率的变化是一个有价值的开放性问题。

现有的自监督单目深度估计方法[9,28,49,10,27]通常使用立体对单目序列的几何约束作为唯一的监督来源,并取得了很大进展。然而,这些监督方法不能适应推理时图像分辨率的变化,当测试分辨率与训练分辨率不一致时,其性能会严重下降。如图1所示,我们将现有超前工作Monodepth2[10]的深度预测结果与我们的RA-Depth进行对比。Monodepth2和RA-Depth都在固定分辨率640 × 192下进行训练,然后在两个分辨率640 × 192和320 × 96下进行测试。可以看出,在不同分辨率下测试时,Monodepth2预测的深度图不一致且较差。为了在不同的分辨率下进行测试,现有的方法为每个分辨率训练一个单独的模型。因此,这不仅需要不可避免的训练开销和高昂的存储成本,而且还限制了单目深度估计模型的灵活性和实用性。
在这里插入图片描述
图1 不同分辨率下的深度预测。我们比较了Monodepth2[10]和我们的RA-Depth在不同分辨率下的深度预测。Monodepth2和RA-Depth都在固定分辨率640 × 192下进行训练,然后在640 × 192 (a)和320 × 96 (b)下进行测试。RA-Depth在不同分辨率下测试时表现出良好的分辨率适应能力。

本文提出了一种分辨率自适应自监督单目深度估计方法RA-Depth。首先,我们提出了一种任意尺度的数据增强方法来生成同一场景的任意尺度的图像。具体来说,我们通过随机调整大小、裁剪和拼接(详见3.2节)来改变输入图像的比例,同时保持图像的分辨率/大小(即width×height)。这些生成的任意尺度的图像可以模拟不同图像分辨率下的尺度变化,从而促使模型隐式学习场景深度的尺度不变性。在此基础上,提出了一种基于多尺度特征融合的单目深度估计框架。在我们的框架中,我们使用优越的高分辨率表示网络HRNet[40]作为编码器,并设计了一个具有高效多尺度特征融合的解码器。因此,编码器和解码器形成了双HRNet架构,可以充分利用和聚合多尺度特征来推断准确的深度。由于这种高效的设计,我们可以在较低的网络开销下获得更好的深度估计性能。最后,我们提出了一种新的跨尺度深度一致性损失来明确学习场景深度的尺度不变性。因此,即使输入图像的尺度不同,单目深度估计模型也可以预测同一场景的一致深度图。在KITTI[8]、Make3D[38]和NYU-V2[39]数据集上的大量实验表明,RA-Depth在单目深度估计上达到了最先进的性能,并表现出良好的分辨率适应能力。

总之,我们工作的主要贡献如下:

  1. 据我们所知,我们的RA-Depth是第一个解决自监督单目深度估计图像分辨率适应的工作。
  2. 我们提出了一种任意尺度的数据增强方法,促进模型从不同尺度的图像中学习深度。
  3. 我们开发了一种高效的双高分辨率网络,用于单目深度估计,该网络具有多尺度特征融合,并使用一种新的跨尺度深度一致性损失进行训练。
  4. 大量实验表明,我们的RA-Depth在单目深度估计上达到了最先进的性能,并且对不同分辨率具有良好的泛化能力。

Related Work

2.1 Supervised Monocular Depth Estimation

单目深度估计的目的是从单色图像中预测

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值