1 Intro
在已知相机参数的情况下,可以通过视差来得到相对应的深度。那如果左右相机不在同一个平面并且参数也不知道,本文就提出了一种方法,从视频序列来进行深度和相机运动的估计。这也是无监督的学习方法,区别在于不需要双目,也不用知道相机参数。
2 Approach
这里的训练图片就是通过相机的移动获得序列图片,框架的结构有两部分,一部分为single-view depth CNN,一部分为camera pose estimation CNN。
2.1 View synthesis as supervision
作者将训练的图片序列分为两部分,target image 和source image。
下图可以看到整个pipeline。整体架构有两部分深度网络(depth cnn)和位置网络(pose cnn)。
深度网络将目标视图(It)作为input,输出是逐像素深度图Dt;位置网络将目标视图和其他视图(It-1,It+1)作为输入,输出就是相机位置信息(relative pose)Tt→t-1,Tt→t+1,最后再对source view采样,利用预测的深度图和relative pose重建target view。

这里的loss为:

其中,It就是target image,^Is就是Is 通过深度图warp到target的结果。
2.2 Differentiable depth image-based rendering
这里解释It和Is如何warp。下图过程为首先将t
CVPR 2017【论文笔记】Unsupervised Learning of Depth and Ego-Motion from Video
最新推荐文章于 2023-06-13 10:53:57 发布
本文介绍一种无监督方法,从视频序列估计深度和相机运动,无需双目或相机参数。方法包括深度CNN和位姿CNN,通过视差合成提供监督。实验在Cityscapes和KITTI数据集上验证了模型的有效性。

最低0.47元/天 解锁文章
2567

被折叠的 条评论
为什么被折叠?



