CVPR 2017【论文笔记】Unsupervised Learning of Depth and Ego-Motion from Video

最新推荐文章于 2023-06-13 10:53:57 发布

原创

最新推荐文章于 2023-06-13 10:53:57 发布 · 3.5k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #计算机视觉 #人工智能

本文介绍一种无监督方法，从视频序列估计深度和相机运动，无需双目或相机参数。方法包括深度CNN和位姿CNN，通过视差合成提供监督。实验在Cityscapes和KITTI数据集上验证了模型的有效性。

1 Intro
在已知相机参数的情况下，可以通过视差来得到相对应的深度。那如果左右相机不在同一个平面并且参数也不知道，本文就提出了一种方法，从视频序列来进行深度和相机运动的估计。这也是无监督的学习方法，区别在于不需要双目，也不用知道相机参数。
2 Approach
这里的训练图片就是通过相机的移动获得序列图片，框架的结构有两部分，一部分为single-view depth CNN，一部分为camera pose estimation CNN。
2.1 View synthesis as supervision
作者将训练的图片序列分为两部分，target image 和source image。
下图可以看到整个pipeline。整体架构有两部分深度网络（depth cnn）和位置网络（pose cnn）。
深度网络将目标视图（It）作为input，输出是逐像素深度图Dt；位置网络将目标视图和其他视图（It-1，It+1）作为输入，输出就是相机位置信息（relative pose）Tt→t-1，Tt→t+1，最后再对source view采样，利用预测的深度图和relative pose重建target view。
在这里插入图片描述
这里的loss为：

其中，It就是target image，^Is就是Is 通过深度图warp到target的结果。
2.2 Differentiable depth image-based rendering
这里解释It和Is如何warp。下图过程为首先将t

最低0.47元/天解锁文章