深度和自我运动自监督学习的特征度量损失 Feature-metric Loss for Self-supervised Learning of Depth and Egomotion

最新推荐文章于 2024-06-08 10:01:16 发布

原创

最新推荐文章于 2024-06-08 10:01:16 发布 · 905 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉

本文提出了一种针对深度估计和自我运动的特征度量损失，利用编解码器结构的FeatureNet学习特征表示，通过一阶和二阶导数正则化优化。论文强调了特征度量在无纹理区域的优势，并展示了在KITTI数据集上的优秀性能。

Feature-metric Loss for Self-supervised Learning of Depth and Egomotion (深度和自我运动自监督学习的特征度量损失)

0 摘要

光度损失广泛用于自监督深度和自我运动估计。由于无纹理区域中像素的平滑或者低分辨率中的对个局部极小值导致光度损失的优化总是存在缺陷（这里的意思是在像素匹配的过程中，为了得到较好的匹配效果，期望像素有着唯一性以及易寻找的特性，即在训练时通过梯度下降法可以很好的找到全局最优，即梯度表现为一个收敛盆地，以便于从各个方面都可以陷入其中，而不是过于平缓或者坑坑洼洼，前者不利于最优解的寻找，而后者容易陷入局部最优。）。为此，该文提出了一种基于特征表示的特征度量损失，特征表示采用编解码器结构来训练，损失函数方面采用了两个被正则化的一阶导数和二阶导数，以便于得到合适的会聚盆地。数值方面KITTI中的δ₁为0.885到0.925，从单目到单目加立体再加后处理。

1 介绍

单目深度估计广泛的应用于增强现实，机器人导航和自动驾驶。相比于传统的SFM/SLAM算法，单目深度估计可以在不借助真值的情况下得到场景的相对深度，以此来得到图像中各个物体的相对位置关系。真值的获取一般采用昂贵的LiDAR（激光雷达）或者计算机模拟引擎的渲染。但激光雷达不利于新相机的使用，而模拟引擎又有着在现实场景泛化能力差的缺点。而自监督学习将这两个任务统一到一个框架中，只使用单目视频做为输入，监督来自视图合成，设置简单，便于部署。
目前来说，自监督算法比监督方法还是差很多，问题主要在于我们的自监督采用光度损失的弱监督。通过源视图估计出的深度图和相邻帧估计出的位姿参数重建出的伪源视图，而伪源视图和源视图之间的差异大小倍定义为光度损失。但是光度损失较小