CVPR 2017【论文笔记】Unsupervised Learning of Depth and Ego-Motion from Video

本文介绍一种无监督方法,从视频序列估计深度和相机运动,无需双目或相机参数。方法包括深度CNN和位姿CNN,通过视差合成提供监督。实验在Cityscapes和KITTI数据集上验证了模型的有效性。

1 Intro
在已知相机参数的情况下,可以通过视差来得到相对应的深度。那如果左右相机不在同一个平面并且参数也不知道,本文就提出了一种方法,从视频序列来进行深度和相机运动的估计。这也是无监督的学习方法,区别在于不需要双目,也不用知道相机参数。
2 Approach
这里的训练图片就是通过相机的移动获得序列图片,框架的结构有两部分,一部分为single-view depth CNN,一部分为camera pose estimation CNN。
2.1 View synthesis as supervision
作者将训练的图片序列分为两部分,target image 和source image。
下图可以看到整个pipeline。整体架构有两部分深度网络(depth cnn)和位置网络(pose cnn)。
深度网络将目标视图(It)作为input,输出是逐像素深度图Dt;位置网络将目标视图和其他视图(It-1,It+1)作为输入,输出就是相机位置信息(relative pose)Tt→t-1,Tt→t+1,最后再对source view采样,利用预测的深度图和relative pose重建target view。
在这里插入图片描述
这里的loss为:
在这里插入图片描述
其中,It就是target image,^Is就是Is 通过深度图warp到target的结果。
2.2 Differentiable depth image-based rendering
这里解释It和Is如何warp。下图过程为首先将t

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值