《Unsupervised Learning of Depth and Ego-Motion from Video》论文笔记

Unsupervised Learning of Depth and Ego-Motion from Video
作者:Tinghui Zhou,
项目主页

摘要

作者针对于无结构化的单目视频序列的图像深度获取提出了一种无监督网络架构,与之前方法不同在于作者的方法是完全无监督的,而之前的网络或者需要像素深度的标记,或者需要相机姿势的标记等。网络中使用了单目视的深度预测网络与双目视的姿势预测网络,并结合一个 loss 进行训练。这个 loss 是基于相邻图像的区域来合成目标图像的相应区域,并计算两者的 L 1 L_1 L1 loss 得到。

文章的核心思想是利用photometric consistency原理来估计每一帧的depth和pose。photometric consistency就是对于同一个物体的点,在不同两帧图像上投影点,图像灰度应该是一样的。

网络结构

有一个前提是:根据射影几何以及平面投影的相关知识,作者的方法需要提前知道用于拍摄的相机的内部参数 K。

基本网络结构如图所示,包含 Depth CNN 与 Pose CNN 两部分,分别用于预测像素深度、相邻两帧图像之间相机的运动姿势。训练过程中,取 3 帧图像 I t , I t − 1 , I t + 1 I_t, I_{t-1}, I_{t+1} It,It1,It+1,称 I t I_t It 为目标图像,另外两个为源图像。首先 I t I_t It 通过 Depth CNN 得到像素深度,将 ( I t , I t − 1 ) (I_t, I_{t-1}) (It,It1) ( I t , I t + 1 ) (I_t, I_{t+1}) (It,It+1) 分别作为一组送入 Pose CNN 得到相邻像素之间相机的运动 T ^ t → t − 1 , T ^ t → t + 1 \hat{T}_{t \to t-1}, \hat{T}_{t \to t+1} T^tt1,T^tt+1
在这里插入图片描述但是没有像素深度的标记,也没有相机位置的标记,我们只有一个视频序列,怎么样才能做到无监督训练呢?这个时候作者想到了一个很聪明的办法,就是利用网络预测的像素深度来重建图像,通过对重建的图像效果进行训练和优化,来实现对Depth CNN(与Pose CNN)训练和优化。具体实现思路就是已经得到了相邻两帧图像相机的运动 T ^ t → t − 1 , T ^ t → t + 1 \hat{T}_{t \to t-1}, \hat{T}_{t \to t+1} T^tt1,T^

封闭回路的无监督学习结构化表示 封闭回路的无监督学习结构化表示是一种机器学习方法,旨在通过建立闭环反馈以自动地学习数据之间的结构化表示。在无监督学习中,我们通常没有标签的辅助信息,因此要求模型能够从数据中自动发现隐藏的结构和模式。 封闭回路的无监督学习方法的关键思想是通过对模型输出和输入进行比较来进行训练。在这个闭环中,模型的输出被重新注入到模型的输入中,从而形成了一个持续的迭代过程。模型通过调整自身的参数来最小化输入和输出之间的差异,以此来改善所学到的表示。 使用封闭回路进行无监督学习的一个例子是自编码器。自编码器是一种神经网络模型,它的输入和输出都是相同的。模型的目标是通过学习如何将输入编码为一个低维的表示,并且能够从这个低维表示中重构出输入。在训练过程中,自编码器通过最小化输入和重构输出之间的差异来调整自身的参数。 封闭回路的无监督学习方法有许多优点。首先,由于无需标签,这种方法可以适用于大量未标记的数据。其次,学习到的结构化表示可以用于许多任务,如数据压缩、降噪、特征提取等。此外,通过引入封闭回路,模型可以在训练过程中不断自我纠正,从而改善表示的质量。 总之,封闭回路的无监督学习方法通过建立闭环反馈来自动地学习数据之间的结构化表示。该方法可以应用于无标签数据,并且通过迭代过程来不断改善所学到的表示。这种方法在很多任务中都具有广泛的应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值