自监督单目3D重建与不确定性估计

基于车载单目视频的自监督3D重建与自我运动估计

摘要

从单目摄像头恢复三维结构信息对于自动驾驶、机器人导航和交通安全评估具有重要意义。近期的研究已解决了利用车载视频进行自监督单目深度估计中的一些紧密问题,例如遮挡/去遮挡、动态物体以及尺度不一致等问题。然而,很少有研究关注模型的预测置信度和深度之间的内在关系,而这两者分别对决策系统和性能提升至关重要。本文提出一种新颖的相关性感知结构,用于挖掘深度之间的内在关系,将独立的深度转换为图状连接的深度图。随后设计了一个高斯估计器,用于同时预测深度图和不确定性图。不确定性图可以揭示难以预测的问题区域,基于此我们进一步开发了基于不确定性的策略以提升性能。具体而言,我们提出了一种简单的图像预处理方法,以克服由低纹理(尤其是在平坦道路和阴影区域)引起的梯度局部性问题。此外,为了避免高不确定性区域的影响,我们提出了坚固性感知掩码,用于识别图像中可靠的像素进行训练。在KITTI数据集上的实验表明,我们的方法在深度估计和自我运动估计任务中均相较于最先进方法展现出具有竞争力的性能。此外,在Make3D和 Cityscapes数据集上的额外实验验证了我们方法的强大泛化能力和实用性。

索引术语

三维重建,单目深度估计,感知,不确定性估计,视觉里程计。

一、引言

AUTONOMOUS 驾驶目前是一个热门的研究课题,可以显著提高交通效率和安全性,保护人民的财产和生命。驾驶环境感知对于自动驾驶车辆至关重要,尤其是在三维结构感知方面,这与最终决策密切相关。错误或不充分的决策可能导致意外后果,甚至造成生命和财产损失。因此,准确感知自动驾驶车辆的三维驾驶环境变得十分必要。此外,交通安全评估也需要对场景的三维结构有充分了解,以确定物体的精确三维位置。

目前,自动驾驶汽车通常采用激光雷达(LiDAR)来获取三维信息。然而,激光雷达成本过高,难以广泛应用。并且,由于扫描范围有限,激光雷达无法获取场景的完整三维结构。激光雷达传感器也容易受到恶劣天气(如雪、雨、沙和灰尘)的严重影响。与激光雷达相比,摄像头成本更低且更为常见。同时,我们期望我们的三维重建方法能够应用于自动驾驶及其他交通场景,例如交通安全评估和交通监控视频处理。因此,我们专注于基于单目相机数据的自监督三维重建,考虑到效率、经济性和通用性,如 KITTI、Make3D和Cityscapes数据集[1]–[3],。尽管自监督方法单独使用时只能在时间上恢复相对深度图,但重建出的物体形状信息可以有效促进其他计算机视觉任务,如目标检测和语义分割。此外,借助车辆速度,我们可以轻松获得实际深度尺度。

据我们所知,Zhou et al.[4]是首个利用单目视频重建场景的三维结构的研究团队。在此之后,大量研究致力于通过单目视频进行自监督三维重建,重点解决该流程中存在的一系列固有问题,包括运动物体建模、遮挡/去遮挡、尺度不一致等。通过这些优秀的工作,有监督与自监督方法之间的三维重建性能差距变得越来越小。值得注意的是,Bian et al.[5]提出了一种简单但有效的尺度一致性网络,这意味着我们可以利用单一尺度因子来恢复视频序列中所有帧的实际三维结构,显著提高了其在实际应用中的可行性。

然而,一些固有问题仍然存在,例如反射、远处和低纹理区域。此外,这些困难区域经常出现在驾驶环境中,如汽车车窗(反射区域)、阴影和道路(低纹理区域)。另外,不确定性估计对于实际应用系统至关重要,特别是对于需要绝对安全的自动驾驶系统。直观上,高不确定性表明存在某些隐式或显式的问题,从而阻碍网络训练。因此,设计解决前述问题的一些特殊模块将显著有助于自监督三维重建的性能提升,推动其在实际系统中的应用。

据我们所知,先前工作中没有一项考虑了上述问题。为了弥补这些不足,我们提出:
- 一种相关性感知结构,用于建模深度之间的关系。通过该方法,原本具有独立深度的深度图被转换为类似图结构的深度图,有助于解决反射和远距离区域的问题。
- 一种高斯估计器,用于预测深度图和自我运动及其不确定性,能够识别问题区域,并作为副产品促进性能提升。
- 一种简单的预处理方法,用于处理低纹理(尤其是平坦道路和阴影)引起的梯度局部性问题。
- 一种坚固性感知掩码,用于在投影中发现可靠像素,从而减轻高不确定性区域的影响。
- 一种融合缩放方法,用于权衡不同偏好,进一步实现性能提升。

为了评估我们方法的有效性,我们组织了如下论文结构。首先,在下一节中进行简要的文献研究。接着,通过数学描述来定义所提出的问题。随后,介绍我们打算采用的方法。然后,详尽的实验证明了我们模型的优势。最后,结论部分对全文进行总结。此外,我们还展示了一些失败案例,进一步讨论模型的局限性。

II. 相关工作

从视频中恢复场景的三维结构和摄像头自我运动对于自动驾驶、机器人导航和交通安全至关重要,吸引了众多研究者的关注。

A. 监督深度估计

在监督方式下,首先利用手工设计的特征进行估计 [6],[7]。具体而言,Saxena等通过结合从图像纹理和梯度中提取的绝对深度特征以及从图像直方图中提取的相对深度特征,预测局部区域的深度,而非逐像素估计深度。最终,使用马尔可夫随机场(MRF)获得综合估计结果。此后,许多研究探索了图像中的单目线索,进而预测深度图[8]–[11]。

传统方法在从图像中提取一些高级和抽象特征方面相较于卷积神经网络(CNN)存在局限性。为此,Eigen 等 在利用CNN从单幅图像估计深度方面进行了一些开创性工作 [12]。自那以来,已有相当多的研究通过设计新型CNN结构来提升性能[13]–[16],。值得注意的是,这些CNN仅能提取图像的局部特征。然而,全局信息也对深度估计有贡献。因此,研究人员采用了两种方法来解决这一问题:一种依赖于条件随机场(CRFs)来获取全局信息[12],[17]–[22],,另一种则借助循环神经网络(RNN)来解决该问题 [23]–[28]。同时,多任务学习也被用于提升深度估计性能 [12],[20]。

此外,值得一提的是,深度估计不仅可以被视为回归问题,也可以被视为分类问题[17],[29]。更具体地说,研究人员首先将连续深度离散化为多个分组,随后为每个分组分配一个特定标签。在这种情况下,回归问题被转化为分类问题。

B. 自监督/无监督深度估计

监督学习的一个众所周知的问题是需要大量标注训练数据,而这些数据极易受到环境和传感器自身噪声的影响。相比之下,自监督方法可以通过基于扭曲的视图合成监督,仅从单目视频中捕捉自我运动和深度,无需其他传感器[4]。自此,该领域已开展了大量研究工作[4],[30]–[35]。

代表性地,Godard 等专注于处理遮挡/去遮挡问题 [36]。更具体而言,来自不同参考图像的重投影损失中的最小值将被视为最终损失。此外,由于我们假设不存在运动物体,场景中的运动物体被排除在重投影之外。相应地, Casser 等提出可以使用先进的实例分割技术将潜在的运动物体遮蔽出来,然后分别预测自我运动和物体运动 [37]。

关于由低纹理引起的梯度局部性,已有不少研究 [31],[38] 采用了周的工作 [4] 中的多尺度训练方法来解决该问题。然而,这类流程在训练过程中需要额外计算,并且根据 Bian 的工作 [5] 表明,其效果也未达预期。另一个问题是,自监督方法得到的深度和自我运动在尺度上存在歧义。为此,Bian 等 提出了几何一致性损失作为监督信号,以鼓励模型在连续序列中获得尺度一致的深度和自我运动 [5]。

模型的效率对于实际应用至关重要。因此,朴和杨等 et al.采用了传感器融合技术,在激光雷达、立体融合和视觉里程计的辅助下,获得了更准确且更快的深度估计结果[39],[40]。不限于单目方法,立体方法也已得到发展 [38],[41]。生成对抗网络(GAN)在深度估计方面同样表现出色[23],[42]。

现有研究未对深度与预测不确定性之间的关系进行建模,也未考虑如何减轻高不确定性区域的影响。在本文中,我们将通过提出一组专门的策略来弥补这些不足。

III. 问题设定

该模型可分为两个独立部分,其中一部分是表示为 D的深度网络,另一部分是标记为E的自我运动网络。深度网络的输入为目标图像I ∈ Rh×w×c,其中h、w和c分别代表图像的高度、宽度和通道数。此外,我们可以将深度网络描述为 D: I ∈ Rh×w×c → D ∈ Rh×w。姿态网络的输入是图像序列,写作I ∈ Rl×h×w×c,满足目标图像位于序列的中间位置,且l为序列长度。在本研究中,我们沿用周的工作[4],,将序列长度设为3。具体而言, E: I ∈ R3×h×w×3 → T ∈ R6。

图像序列可以表示为 I =(Ir1, It, I r2),六自由度姿态向量 T 可进一步转换为变换矩阵 E3×3 Ii→Ij。在已知深度图 Dt、对应目标图像 It 来自 D 以及变换矩阵 E3×3 It→I1 r、E3×3 It→I2 r 来自 E, 的情况下,可以根据公式1从参考图像重建目标图像,其中 pr、K、Et→r、Dt(pt)、K−1 和 pt 分别表示参考图像中的坐标、摄像头内参矩阵(R3×3)、目标图像与参考图像之间的变换矩阵、对应 pt 的深度、 K的逆矩阵 和目标图像中的坐标。通过该方法,参考图像 I i r 可被投影到目标图像平面上,并记为 Ii′ r。模型通过利用目标图像与扭曲图像之间的差异进行训练。由此可获得深度图和自我运动。

$$
pr \sim K Et→rDt(pt)K^{-1} pt \quad (1)
$$

IV. 方法

在本节中,我们首先介绍所提出方法的总体架构和损失。随后,介绍了具体损失、相关性感知结构、高斯估计器、克服梯度局部性、坚固性感知掩码以及融合缩放方法。

A. 模型概述

为了实现类人推理,我们考虑了深度之间的内在关系,因为纯CNN仅提取图像的局部信息,而未考虑信息相关性。据我们所知,此前很少有研究考虑深度之间的关联。因此,我们提出了一种相关性感知结构来弥补这一空白,同时自动缓解一些众所周知的问题,例如反射、透明度和遮挡/去遮挡。

此外,不确定性估计在实际系统中至关重要且具有重要意义,尤其是在自动驾驶系统中。然而,目前仅有少数研究考虑到了这一点。为此,我们提出了一种高斯估计器来预测逐像素的深度图及其不确定性。来自不确定性图的观测结果可以进一步指导性能的提升。此外,不确定性图能够为深度和自运动估计模型提供更详细的信息,有助于决策系统做出更安全、更合理的决策。相关感知结构和高斯估计器均被应用于深度网络,而姿态网络仅采用高斯估计器。

示意图0

深度估计网络在训练期间与姿态估计网络协同工作,但在推理时可独立运行。在训练过程中,我们采用结构相似性(SSIM)损失Lssim来校正由参考图像生成的扭曲图像的结构,从而能更好地应对真实场景中的光照变化 [5],[43]。目标图像与扭曲图像之间的光度损失Lp作为细节监督,可校正像素位置,以获得更精确的深度和自运动估计。平滑损失Lsmooth有助于预测平滑的深度图。

为了评估预测的不确定性,已实现高斯深度和自我运动。因此,Lssim、Lp 和 Lsmooth 分别重写为 L sGsim、L pG、 L sGmooth。此外,我们坚固性感知掩码的实现将 L sGsim、L pG 转换为 L G,M ssim 和 L G M p ,。根据Bian的工作[5],,在单尺度上训练的模型优于在多尺度上训练的模型。基于此,损失函数最终可表示为公式2:

$$
L= αLG,M ssim+ βLG,M p+ γLsGmooth \quad (2)
$$

B. 损失

1) 光度损失:

一个强烈的假设是所有表面都满足朗伯反射 [44],,这支持了扭曲图像 Ii′ r 与目标图像 It 之间的光度恒定性。许多先前工作成功地使用光度损失作为监督来训练自监督深度网络[4],[36],[37], ,其公式如下(公式3):

$$
Lp= \sum_{i=1}^{n} \frac{1}{Ni} |Ii r′ (p) − It(p)|, \quad p ∈ Ni \quad (3)
$$

其中Ni表示从第ith个参考图像投影到目标图像时的有效点数量,n为参考图像数量。考虑到鲁棒性,我们选择L1范数。

2) SSIM损失:

SSIM损失强调结构相似性,主要捕捉图像的边缘 [43]。此外,光度损失对现实世界中的光照变化敏感。因此,我们采用公式4中所述的SSIM损失来改进这一点。

$$
Lssim= \sum_{i=1}^{n} \frac{1}{Ni} |1 − SSI M(It(p), I i r′ (p))|_1^2, \quad p ∈ Ni \quad (4)
$$

3) 平滑损失:

由于在低纹理或同质区域中预测深度的难度较大,先前的研究工作采用了平滑性先验。同样地,我们采用边缘感知平滑损失,遵循[5],,其形式如公式5所示:

$$
Lsmooth=\sum_{p} (e −∇It(p) · ∇Dt(p))^2 \quad (5)
$$

其中 p 属于整个图像空间, ∇ 是一阶导数算子,分别沿水平和垂直方向工作。

C. 相关性感知结构

人类的一项关键能力是,即使在估计难度很大的情况下,也能依靠邻近信息获得准确的深度预测结果。也就是说,可以挖掘深度之间的潜在关系,从而进一步提升深度估计的性能。具体而言,某个特定深度应与周围深度表现出特定相关性。大致来说,同一语义区域内的图像水平深度应具有相似的值,而垂直深度则倾向于逐渐变化。这类关系可为深度估计提供约束,缓解自监督深度估计中的一些棘手问题,例如反射和遮挡。

在获得最终深度图之前,网络首先得到粗略深度图,而粗略深度图是相关性感知结构的输入。相比之下,相关性感知结构的输出是考虑了深度相关性的深度图内在关系。我们可以将这种内在关联表述为公式6。

$$
D(i,j)= \sum_{m=0,1,-1} \sum_{n=0,1,-1} wi+m,j+nκ(F(i,j), F(i+ m,j+ n)) \quad \text{s.t.} \quad m · n= 0 \quad (6)
$$

D(i, j) 表示深度图第 i th行和第 j th列的深度值,而 F(i, j) 是对应于 D(i, j) 的粗略深度。wi+m, j+n 表示可学习权重, κ(x, y) 是考虑 x 和 y 之间相关性的相关性单元。注意 i + m 和 j + n 应同时小于图像的高度和宽度。在这种情况下,D(i, j) 并非独立,而是与邻近的深度相关。

如果 D(i, j) 与 D(i, j + 1) 相关,且 D(i, j + 1) 与 D(i, j + 2) 相关,则可以推断 D(i, j) 与 D(i, j +2) 相关。那么,基于传递性,深度图的第 ith 行是相关的。最终,深度图的每一行都被连接起来。类似地,深度图的所有列也将考虑深度之间的相关性。因此,深度图在全局上被连接起来。即,整个深度图作为一个连通图是相关的。

在实现过程中,我们根据计算方向将公式6拆分为两个独立的部分,如公式7、8和9所示,其中D(i,j) h表示水平相关,而与之相对的是D(i,j) v,表示垂直相关。通过这种方式,该问题被转化为挖掘序列的内部关系。为了解决这一问题,我们采用了一些著名结构作为相关性感知单元,以提取深度之间的关系,包括基本RNN单元、长短期记忆(LSTM)[45],和门控循环单元(GRU)[46]。这些单元具有不同的能力,特别是在建模非线性以及长期依赖关系方面。最终,我们选择GRU[46]作为相关性感知单元。更多详细的消融研究请参见第V节的C部分。需要注意的是,为了简化,我们在深度图的不同位置对w采用了权重共享。

$$
D(i,j)= D(i,j)h+ D(i,j)v \quad (7)
$$

$$
D(i,j)h= \sum_{n=1,-1} wi,j+nκ(F(i,j), F(i,j+ n)) \quad (8)
$$

$$
D(i,j)v= \sum_{m=1,-1} wi+m,j κ(F(i,j), F(i+ m,j)) \quad (9)
$$

示意图1 展示了视觉效果。(b)说明了工作原理。)

如图2(a)所示,我们的相关感知结构能够考虑深度之间的内在关系,并为每个像素预测出更合理的深度。图 2(b)展示了我们的模型的工作方式,对应于公式6‐9。您还可以观察到,原本独立的深度图通过我们的相关操作被转换成了连通的深度图。因此,一些问题可以自动得到解决,例如反射和遮挡/去遮挡区域。

然而,所提出的相关性感知结构在以下几个方面不同于经典的条件随机场(CRF)技术:
- 条件随机场(CRF)旨在通过最小化条件概率来获得总体最优结果,导致对局部区域的关注较少。相比之下,我们的方法尝试在考虑邻近值的情况下,为每个像素寻找最佳解决方案。
- 条件随机场(CRF)通过马尔可夫随机场(MRF)对其输出设置约束,但对输入没有限制。我们的方法直接建模输入和输出之间的关系,而不是对输入和输出施加任何约束。
- 我们的相关性感知结构可以选择多种相关函数,例如循环神经网络(RNN)、LSTM和GRU,以有效建模非线性关系并捕获输入与输出之间的任何依赖关系。我们的方法还可以无缝集成到任何深度神经网络(DNN)中,形成端到端网络。条件随机场(CRF)无法实现这一点。

D. 高斯估计器

通常,深度/姿态估计网络仅输出单一的深度/姿态预测。直观上,这与人类的推理过程不一致。人类可以使用一些不确定的词语(如“近似”)来预测深度范围,而不是单一数值,特别是对于那些难以预测的深度。类似地,我们的高斯估计器也试图学习一个动态的深度图。

更具体地说,对于高斯深度图中的每个位置,公式10中表述的高斯分布描述了该点处的深度分布。类似地,位姿向量的每个元素也是一个如公式11所表述的高斯分布。需要注意的是,深度的方差是相互独立的。然而,我们将位姿向量视为一个整体,这意味着所有位姿向量元素共享一个联合方差。 N(μ, δ2)表示期望为 μ、方差为 δ2的高斯分布。

$$
DG(p) \sim N(μ(p), δ(p)^2) \quad (10)
$$

$$
T G(i) \sim N(μ(i), δ^2), \quad i= 1, 2,…, 6 \quad (11)
$$

在训练过程中,使用蒙特卡洛采样来获取用于重投影的深度图和位姿向量,其可表示如下(公式12‐13):

$$
D′(p)= \frac{1}{s} \sum_{i=1}^{s} M(N(μ(p), δ(p)^2)) \quad (12)
$$

$$
T′(i)= \frac{1}{s} \sum_{j=1}^{s} M(N(μ(i), δ^2)) \quad (13)
$$

其中s为采样次数,M(·)表示蒙特卡洛采样。为了使其可微,我们采用公式14所述的重参数化技术来获取样本。为了使 δ有意义,我们声明 δ ← δ+ ε,其中 ε是一个无穷小量。

$$
M(N(μ, δ^2)) \Leftrightarrow μ+ δ ·M(N(0, 1)) \quad (14)
$$

在推理阶段,我们将s视为无穷大。在这种情况下,D′(p) 应收敛至 N(μ( p), δ( p)^2 ) 的期望。即,高斯分布的期望和方差分别表示预测结果和不确定性。与先前工作的基于点的估计相反,该方法考虑了所有可能的深度,其结果代表模型的平均预测。因此,它不仅能提供预测不确定性,还能作为副产品带来性能提升。相应地,在采用高斯深度和姿态的情况下,损失 Lssim、L p 和 Lsmooth 分别被重写为 L G ssim 、L G p、L G smooth 。

E. 克服梯度局部性

从不确定性中得出的一些观察结果表明,自监督深度和自我运动估计存在一个显著问题,即主要由图像的低纹理引起的梯度局部性。具体而言,训练和测试集中存在大量阴影和平坦道路,在不确定性图中表现为高不确定性区域。为解决这一问题,我们提出了一种简单但高效的数据预处理方法,用于处理输入图像以增强像素的可区分性,尤其适用于低纹理区域。为此,我们提出了以下两种方法:
1) 首先将RGB颜色空间转换为HSV颜色空间,然后仅对 V通道应用限制对比度自适应直方图均衡化(CLAHE)。最终,将处理后的HSV颜色空间图像转换回RGB颜色空间图像。2) 首先对RGB图像的每个通道分别应用 CLAHE,然后将处理后的通道合并在一起。

在我们的方法中,我们采用第二种策略来处理图像。 示意图2 这表明,根据深度图和不确定性图,CLAHE策略可以显著改善梯度局部性问题(更多消融研究见第V节C部分)。

F. 稳固性感知掩码

基本上,我们假设具有低不确定性的深度是稳固的,可用于训练网络。相反,高不确定性预测则不可靠。此外,我们还假设问题区域难以预测,对应于高不确定性。也就是说,我们可以通过不确定性图来区分这些具有挑战性的区域。因此,在训练过程中关注稳固像素可以自动克服潜在的问题。为了减轻问题区域的影响,我们提出了一种自发发现的方法来获得坚固性感知掩码,以区分稳固像素。在公式15中,S表示坚固性感知掩码,而 U是不确定性图。特别地, 〈U(i,j)〉 K表示以U(i,j)为中心、使用核K的卷积操作,其中K是人为设计用于在感受野内计算均值的核。我们方法中的核大小设置为3(更多消融研究见第V节的C部分)

$$
S(i,j)= U(i,j)< 〈U(i,j)〉K \quad (15)
$$

通过这样做,我们可以高效地获得坚固性感知掩码。然后将其融入有效掩码N中,可表示为公式16,其中表示逐元素乘法。

$$
N′= N S \quad (16)
$$

G. 融合缩放

据我们所知,现有研究几乎都采用了周的工作提出的缩放方法[4]。然而,我们发现合适的缩放方法也能带来性能提升,且不同的缩放方式可能具有不同的偏好。我们自然希望提出一种能够兼顾多种偏好的缩放方法。为此,我们提供了一种简单的融合缩放方法,用于合并不同的缩放方式。在公式17中,Dgt表示真实深度,而Dpre是预测深度。

$$
scale_f actor= \frac{1}{2}\left(\frac{\text{median}(D_{gt})}{\text{median}(D_{pre})} + \frac{\text{mean}(D_{gt})}{\text{mean}(D_{pre})}\right) \quad (17)
$$

V. 实验

在本节中,我们首先介绍实验的实现细节。然后,展示了与当前最先进方法的对比结果。最后,通过详细的消融研究证明了我们模型的有效性。所有实验均使用 PyTorch 1.1.0 库和 GTX 1080 GPU 实现。

A. 实现细节

1) 深度网络:

我们的深度网络编码器采用ResNet‐18[47],去除了最后的池化层、展平操作和全连接层,从而可以从中获取编码后的特征。 示意图3 展示了我们解码器的详细结构。需要注意的是,在实验中我们仅使用单尺度训练,基于 Bian的工作[5],,但多尺度训练的接口可选,如有需要。

2) 姿态网络:

除非另有说明,我们采用不带掩码的 PoseNet [4]作为姿态网络。详细架构如 示意图4 所示,唯一的区别是,我们将最后的姿态预测层的输出通道修改为 14,而不是12。其中额外的两个通道用于姿态的不确定性。

3) 数据集:

KITTI原始数据[1],是一个大规模的自动驾驶数据集,提供了多种计算机视觉任务基准,用于深度估计。我们严格遵循周的工作[4],,分别使用40,109和4,431个序列进行训练和验证。此外,使用来自埃根的划分的697张图像 [14]来测试我们的模型。

为了证明泛化能力与实用性,我们直接采用戈达尔的工作 [36],,将我们在KITTI上训练的模型[1]直接应用于训练过程中未见过的Make3D数据集[2](包含134张图像用于测试)。按照戈达尔的工作[36],,我们在Make3D图像的一个中心裁剪区域上进行评估,裁剪比例为 2×1。此外,我们也直接应用我们的模型在KITTI [1]上训练后,直接应用于Cityscapes数据集 [3]而无需任何微调,展示了一些定性结果。

对于视觉里程计,使用KITTI里程计数据集[1]。按照詹的工作[34],,我们利用序列00‐08和09‐10进行训练和测试。需要注意的是,深度估计和视觉里程计是分别训练的。我们的结果来自以3帧片段作为姿态网络输入。在所有实验中,输入图像的分辨率为 416× 128,除非另有说明。

4) 超参数和数据增强:

训练使用ADAM优化器[54]。此外,遵循Bian的工作[5], ,学习率 α、 β和 γ分别设置为 10 −4、0.85、0.15和0.1。s设置为10。周期大小和批量大小分别为2000和4。每次实验中,模型均训练500个周期。同时,数据还通过随机裁剪、缩放和水平翻转进行增强,并包括颜色增强和随机亮度。采用对比度、饱和度和色调抖动,其范围分别为±0.2、 ±0.2、 ±0.2和 ±0.1,且以50%的概率进行。重要的是,颜色增强仅用于输入网络的图像,而不用于计算损失[36]的图像。评估指标与周的工作[4]保持一致。值得注意的是,在所有实验中,均加载在ImageNet上的预训练权重来初始化我们的深度网络编码器的参数。

B. 对比与结果

示意图5 表示双目/立体输入对,(J)表示多任务联合学习。GT代表地面实况(GT)。值得注意的是,所有自监督方法均在分辨率 416 × 128下训练以实现公平比较。†表示我们在MonoDepth2[36],基础上实现了我们的方法,分别添加了RESNET‐18[47]编码器、自动掩码和最小重投影损失[36]用于姿态和深度估计)所示,我们的方法与最先进的自监督深度估计方法相比具有竞争力的性能。 示意图6 表明,我们的方法在视觉里程计方面具有最先进的性能。此外,从 示意图7 还可以发现,我们在KITTI [1]上训练的所提出的模型能够很好地泛化到训练过程中未见过的Make3D数据集[2]。

示意图8 所示,我们的方法在KITTI数据集上也具有吸引人的定性结果[1],,尤其是在反射和色彩饱和区域。 示意图9示意图10 分别展示了在Make3D [2]和Cityscapes [3],上的定性结果。值得注意的是,该模型在KITTI [1],上进行训练,但直接应用于Make3D [2]和Cityscapes [3],而无需任何微调。因此,我们可以得出结论,所提出的模型能够成功地泛化到多种户外环境,并产生有前景的结果。

值得注意的是,我们的模型能够捕捉像素级不确定性,帮助我们发现潜在问题并提升性能。它还可以帮助决策系统做出更安全的决策,从而保护生命和财产。此外,我们可以了解到高不确定性区域主要存在于物体边缘、平坦道路以及运动物体的低纹理区域。也就是说,即使已经应用了一些策略,这些区域仍然难以预测。对于未见数据,新出现的物体和场景具有较低的预测置信度,这为通过最小化不确定性图来解决领域自适应问题提供了新思路。然而,某些区域在我们的模型中表现为高不确定性,但仅通过简单观察很难推断出导致该现象的具体原因。因此,未来需要进行深入研究以探索模型推理过程。

C. 消融研究

为了尽可能从我们的方法中获益,我们为模型的每个部分仔细选择了参数。此外,我们进行了详尽的消融研究以验证所提出的模型。

1) 相关性感知结构:

我们尝试了多种相关性感知单元:基础RNN、LSTM [45], 和 GRU [46]。如 示意图11 所示,基本RNN单元的结果与未使用相关性感知单元时的结果大致相同,而LSTM单元则显著降低了性能。相比之下,GRU单元带来了明显的性能提升,因此我们选择了GRU单元。此外,我们探讨了GRU层数量带来的影响。从 示意图12 可以看出,随着GRU层数量的增加,并未带来性能提升。相反,性能似乎随着层数增加而有所下降逐步增加GRU的数量。我们猜测这是因为多层GRU难以收敛,或者多层GRU的约束太强,无法预测出合理的深度。综合考虑,我们将我们的相关性感知结构确定为单层 GRU层。

2) CLAHE:

我们通过不同配置的实验来寻找最佳参数。 示意图13 显示策略2的表现略优于策略1,但无论哪种策略均能显著提升性能。 示意图14 表明,增加阈值并未带来性能提升。我们推测,过大的阈值可能会显著改变颜色并放大噪声,从而抑制性能进步。请注意,所有实验均采用 CLAHE的默认网格大小。如图3所示,CLAHE方法能够显著改善梯度局部性问题,尤其是在平坦道路和阴影区域。综合考虑,我们确定数据预处理采用阈值为5的第二种方式。

3) 坚固性感知掩码:

我们的坚固性感知掩码旨在选取低不确定性预测并忽略高不确定性预测,从而减轻紧密问题的影响。这里我们假设潜在的问题区域会导致高不确定性。为了尽可能充分利用这一点,我们在不同卷积核大小上进行了实验,如 示意图15 所示。结果表明,小卷积核大小优于大卷积核。因此,我们将坚固性感知掩码的感受野确定为 3 × 3。

4) 融合缩放:

示意图16 所示,常用的中值方法[4]倾向于获得更好的绝对相对误差,而均值方法倾向于获得更低的均方根误差。我们的融合策略能够在均值方法和中值方法之间进行权衡,甚至在其他指标上表现出更优的性能。

5) 总体:

在这部分中,我们通过采用之前最合适的配置来验证我们方法的每个部分消融研究。如 示意图17 所示,我们所提出方法的每个部分都能带来性能提升,特别是我们的相关性感知结构、高斯估计器、CLAHE策略和坚固性感知掩码。请注意,为了简化起见,我们将光度损失和SSIM损失的组合写为基线。此外,我们还将我们的方法应用于高分辨率图像( 832 × 256),定量结果如 示意图18 表示多任务联合学习)所示。需要注意的是,表XIII中展示的方法均在相同分辨率下训练以进行公平比较。结果表明,我们的模型在更高分辨率下能够取得更好的效果。

6) 模型大小与推理时间:

示意图19 展示了我们的模型在不同分辨率下的模型大小和推理时间。值得注意的是,我们的模型运行在单块1080 GPU显卡上,推理时间是经过 100次迭代的平均值。此外,使用分辨率为 416× 128的输入图像训练我们的模型大约需要两天,而分辨率为 832× 256时则需要三天。此外,我们可以发现,在分辨率为 416 × 128和 832 × 256的情况下,单幅图像的深度估计分别耗时19.193毫秒和33.259毫秒,完全满足实时性要求。位姿估计速度超过每秒250个序列。

VI. 结论

本文提出了一种创新方法,用于建模深度之间的内在关系并预测不确定性,有助于性能提升。同时提出了 CLAHE和坚固性感知掩码策略以缓解高不确定性区域的影响,进一步提升了性能。实验表明,我们的模型与最先进的方法相比具有竞争力的性能。此外,我们的模型具有强大的泛化能力,能够推广到各种户外环境,甚至低质量真实世界数据。

VII. 局限性与未来工作

所示,当前模型存在以下几个局限性。
- 我们的模型没有任何形状和平滑先验,因此在预测规则物体时出现了一些意外的失败案例,例如广告牌(圈 a)和汽车边缘(圈b)。这是可以理解的,因为我们并未要求网络学习这种高级语义知识。然而,必要先验可以显著促进性能提升。
- 我们的模型难以捕捉非常细微的物体(圈c,铁丝网)以及区分过于接近的物体(圈d,两根钢柱)。这些任务同样要求网络对场景具有深入的语义理解。

未来,我们将致力于解决这些问题,以进一步提升性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值