【论文阅读笔记】High Quality Monocular Depth Estimation via Transfer Learning

High Quality Monocular Depth Estimation via Transfer Learning

paper:https://arxiv.org/pdf/1812.11941.pdf
code:https://github.com/ialhashim/DenseDepth

Abstract

从单张照片中进行准确的深度估计对于场景理解、三维重建等应用来说是一项基础性的任务。现有深度估计的算法产生的结果多是低分辨率、模糊的深度图。本文提供了一种利用迁移学习以实现高分辨率深度估计的算法。在标准的encoder-decoder结构的基础上,encoder 加载预训练网络的权重,辅以数据增强和训练的策略,使得我们的预测结果更为准确。尽管decoder结构简单,但我们仍能得到一个详细的高分辨率的深度图。我们的网络参数更少、训练迭代的轮次更少、物体边界的捕捉得更为准确,并在两个数据集上取得业界最好。

1. Introduction

现实世界的深度图在场景理解、增强现实、图像重聚焦和分割等方面有很大的用处。近期来深度估计的发展聚焦在二维图像的三维重建。尽管算法的效果在稳步提升,但深度图仍存在质量和分辨率不高的问题。最近的增强现实、场景深度合成和其他图像效果均需要更快和更高质量的三维重构来使其更具有可用性。对于此类运用,准确地重建深度图中深度的不连续性并避免当前CNN网络经常出现大的扰动是至关重要的。  
  
基于我们对当前网络结构和训练策略实验性的分析,我们决定追求网络结构的简易性,以保证后续训练和修改的便利性。尽管我们的结构简单,或许正是因为简单的结构,相比于其他方法,我们生成的深度图拥有更高的精度和更好的可视化效果。为达到这一效果,我们使用了一个表现良好、预训练的网络,这一网络起初用于图像分类。基于迁移学习一个关键的优点在于,一旦其他领域模型取得更好的效果,能方便地、模块化地迁移运用到深度估计问题中。

三点贡献:

  • 提出了一个简单的、基于迁移学习的模型,模型深度估计的结果具有更好的准确率和质量。相比于其他模型,本文模型生成的深度图能更好地捕捉物体的边界,并且模型参数更少、迭代伦次更少;
  • 我们定义了一个loss函数,提出了一个学习策略和简单的数据增强方法,加速了模型的训练;
  • 我们提出了一个合成的高逼真的室内场景数据集,有了更好的ground truth能更好评价CNNs网络的泛化性能。

我们在不同的数据集上测试并评估模型的表现,结果表明我们的模型不仅在标准的深度估计模型上取得很好的效果,而且在其他数据集上有很好的泛化性能。

2. Related work

从RGB图像中进行三维重建是一个病态问题。诸如场景覆盖、尺度模糊、半透明或反射材料等问题都会导致因无法从外观中导出几何特性而出现不准确的情况。在实践中,更准确的场景深度捕捉依赖于硬件的支持,例如雷达或IR-based sensors;或是需要用高质量相机拍摄的大量的来自不同视角的图像,后续辅以漫长且昂贵的离线重构。近年来,基于CNNs的方法能以实时的速度从单张或多张RGB图像中计算出深度图。

单目视觉深度估计
很多CNNs网络的方法将视为从RGB图像映射到深度图的回归问题[7, 23, 37, 14, 38, 9]。尽管这些模型的效果稳步提升,但在深度图的质量和分辨率上仍然有很大的改进空间。本文的目的是使用典型的神经网络结构,生成质量更高、边界更准确的深度图。我们的初步结果表明,通过利用在其他计算机视觉任务上表现良好的现有简单架构,可以实现对最新技术的改进。

多视角
使用CNN算法实现多视角立体图像的重构近期近期已经被提出[18]。[33]考虑了查看图像对这一子问题。[13]考虑了连续的三帧图像。[40]提出了基于联合关键帧的密集相机跟踪和深度图估计的方法。在本文中,我们目的是提高单张图像深度估计的表现。我们猜测通过单目相机深度估计模型所提取的特征能改

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值