StructDepth: Leveraging the structural regularities for self-supervis
StructDepth:利用结构规律进行自我监督的室内深度估计
0 Abstract
在户外的数据集上,自监督单目深度估计已经取得了令人影响深刻的性能。然而,由于缺乏纹理,自监督单目深度估计的性能在室内显著下降。如果缺乏纹理信息,光度损失的约束性能就会下降,无法训练出好的深度网络。受早期室内建模工作的影响,本文利用室内场景中表现出来的结构规律,训练出更好的网络。总体来说,采用了两个额外的监督信号来进行自监督训练:曼哈顿约束和平面约束。其中,曼哈顿约束强制主要表面(地面、天花板和墙壁等)与主导方向对齐。平面约束表明,如果三维点位于同一个平面区域内,他们将被同一个平面很好地拟合。在训练过程中,本文采用两个分量将主表面法线划分为主导方向,并在飞行中检测出平面区域,从而产生监督信号。在训练过程中,随着训练时间的延长,预测的深度变的更加精准,监督信号也得到改善,反过来监督信号也更好的约束网络用来得到更好的深度信息。
1 Introduction
在深度估计发展之前,从单一图像推断密集的三维地图一直是一个难以令人满意的问题。利用深度卷积网络(CNN),我们可以通过训练网络,使用大量地面真值标签从单个图像中预测准确的深度。近年来自监督单目深度估计不需要地面真值,也可以获得较好的深度信息。然而,当现有的室外的深度估计转移到室内时,深度估计的性能明显下降。与室外不同,室内充满了无纹理区域,如白色的墙壁,天花板和地板等。由于缺失丰富的纹理,光度损失的监督效果会得到明显的下降,以至于无法训练出良好的模型。因此,为了训练一个良好的深度估计网络,必须要寻找更强或者额外的监督信号。
在此之前有一些其他方法。利用稀疏SURF(Speeded up robust features,加强特征流)通过自监督网络传播的光流场对无纹理区域进行引导训练。一些方法使用图像补丁而不是单个像素来计算光度损失,并对分割后提取的平面区域的深度施加额外的约束。尽管这些方法改善了深度估计的结果,但是他们没有充分的利用室内环境中呈现的结构规律,而结构规律是3D学习的一个宝贵信息来源。结构规律被称为曼哈顿-世界模型,描述了场景由与主导方向对齐的主要平面组成。这种简单有效的高阶先验可以在许多视觉任务中获得更好的表现,如室内建模、视觉SLAM和视觉测距但尚未应用于单目深度估计。
在本研究中,我们提出将室内结构规律的高阶先验应用于自监督单目深度估计。具体来说,我们采用两个额外的监督信号进行训练:1.曼哈顿法向约束和2.平面约束。曼哈顿约束强制主要表面和主导方向对齐。平面约束表明,如果三维点在同一个平面区域内,他们将被一个平面很好的拟合。我们将两个额外的组件添加到培训过程中。第一个是曼哈顿常规检测,它从网络预测的深度中计算出主要的表面法线,并通过自适应阈值方案将其分割为与消失点相关的方向,第二种是平面区域检测。我们融合了颜色和由深度得到的几何信息,并采用经典的分割算法提取平面区域。在训练过程中,这两个部分结合估计出的深度,在训练过程中产生监督信号。这些信号

本文提出了一种新的自监督深度估计方法,针对室内场景中缺乏纹理的问题。通过引入曼哈顿约束和平面约束,利用室内环境的结构规律来增强网络训练。方法包括从预测深度图中检测曼哈顿法向和识别平面区域,以此提供额外的监督信号。实验结果显示,该方法在NYU-v2、ScanNet和InteriorNet等室内数据集上取得了优于现有方法的性能。
最低0.47元/天 解锁文章
143

被折叠的 条评论
为什么被折叠?



