无监督学习的视觉里程计 UnDeepVO: Monocular Visual Odometry through Unsupervised DeepLearning 论文笔记

最新推荐文章于 2025-03-10 19:21:47 发布

原创

最新推荐文章于 2025-03-10 19:21:47 发布 · 1.8k 阅读

CC 4.0 BY-SA版权

介绍了一种基于VGG+伪孪生FC网络的单目视觉里程计方法，该方法使用无监督学习训练，并能恢复绝对尺度。通过双目图像训练但仅需单目图像测试，同时完成视觉里程计和深度估计任务。

埃塞克斯大学，单目视觉里程计

VGG + 伪孪生FC网络是位姿预测网络的常用结构（undeepVO,deepPCO）

这是一篇单目视觉里程计的工作, 其贡献以及特点主要有:

以双目相机k时刻和k+1时刻的左右图像作为输入，因此有4个图。
网络由深度估计网络、相对位姿估计网络两个部分组成，分别生成深度图和相对位姿。
在这里插入图片描述

基于VGG网络。
由于相对位姿中的平移量是线性的，而旋转角（欧拉角）是非线性的，两个在一起预测效果不好。因此作者使用两个独立的FC网络分别对旋转和平移进行预测。

基于编解码结构。直接预测深度而不是常见的预测视差（更容易收敛）。

所谓的“时空损失函数”，包括:
* 空间损失函数（k时刻的左右图像之间构造损失）
* 时间损失函数（k、k+1时刻的右图像之间构造损失）
在这里插入图片描述

在K时刻的左右视图之间构造损失函数，包括三项：光度一致、视差一致、位姿一致