埃塞克斯大学,单目视觉里程计
VGG + 伪孪生FC网络是位姿预测网络的常用结构(undeepVO,deepPCO)
这是一篇单目视觉里程计的工作, 其贡献以及特点主要有:
- 使用无监督学习进行训练, 不受数据集真值的限制
- 相比以往的单目里程计,可以恢复出绝对尺度
- 同时完成了视觉里程计和深度估计两个任务
- 训练阶段使用双目图像作为输入,测试时使用单目输入。
方法概述:
以双目相机k时刻和k+1时刻的左右图像作为输入,因此有4个图。
网络由深度估计网络、相对位姿估计网络两个部分组成,分别生成深度图和相对位姿。

位姿估计网络:
基于VGG网络。
由于相对位姿中的平移量是线性的,而旋转角(欧拉角)是非线性的,两个在一起预测效果不好。因此作者使用两个独立的FC网络分别对旋转和平移进行预测。
深度估计网络:
基于编解码结构。直接预测深度而不是常见的预测视差(更容易收敛)。
无监督损失函数
所谓的“时空损失函数”,包括:
* 空间损失函数(k时刻的左右图像之间构造损失)
* 时间损失函数(k、k+1时刻的右图像之间构造损失)

空间损失函数
在K时刻的左右视图之间构造损失函数,包括三项:光度一致、视差一致、位姿一致
-
光度一致
首先根据预测的深度图D_dep可以得到左右视图之间的水平距离图D_p:
Dp=Bf/DdepD_{p}=B f / D_{d e p}Dp=Bf/Ddep
其中Bf分别是双目相机的baseline和焦距。
根据得到的D_p和空间约束,通过“spatial transformer”将左右视图对齐,然后计算损失:
Lphol=λsLSSIM(Il,Il′)+(1−λs)Ll1(Il,Il′)Lphor=λsLSSIM(Ir,Ir′)+(1−λs)Ll1(Ir,Ir′)\begin{aligned} L_{p h o}^{l} &=\lambda_{s} L^{S S I M}\left(I_{l}, I_{l}^{\prime}\right)+\left(1-\lambda_{s}\right) L^{l_{1}}\left(I_{l}, I_{l}^{\prime}\right) \\ L_{p h o}^{r} &=\lambda_{s} L^{S S I M}\left(I_{r}, I_{r}^{\prime}\right)+\left(1-\lambda_{s}\right) L^{l_{1}}\left(I_{r}, I_{r}^{\prime}\right) \end{aligned}LpholLphor=λsLSSIM(Il,Il′)+(1−λs)Ll1

介绍了一种基于VGG+伪孪生FC网络的单目视觉里程计方法,该方法使用无监督学习训练,并能恢复绝对尺度。通过双目图像训练但仅需单目图像测试,同时完成视觉里程计和深度估计任务。
最低0.47元/天 解锁文章
609

被折叠的 条评论
为什么被折叠?



