【论文笔记 】视觉重定位 ViPR: Visual-Odometry-aided Pose Regression for 6DoF Camera Localization CVPR 2020

德国纽伦堡夫琅和费集成电路研究所,德国纽伦堡大学,德国慕尼黑路德维希-马克西米利安大学

本文提出了VIPR,一个使用视觉里程计辅助进行重定位的网络,并提出了一个可用于相机重定位和视觉里程计评估的高精度工业数据集。

如果把本文看成是Posenet基础上的改进,那么可以将VIPR的结构描述为:

  • 将Posenet改进为使用三张连续图象为输入,输入对应的三个绝对位姿,作为对真实位姿的逼近。
  • 在此基础上使用相对位姿信息辅助预测:四张连续图象构成三个图像对,使用FlowNet2.0提取其对应的光流信息,然后用级联的LSTM对三个光流进行相对位姿预测,得到三个相对位姿
  • 将三个绝对位姿和三个相对位姿连接:然后输入到一个级联LSTM中,最后得到一个精确的绝对位姿预测

综上,VIPR包括四个模块:

  1. 数据预处理模块:输入4张图象构成3个图像对,前三张图像进行亮度归一化输入到APR中,图像对输入到FlowNet2.0中提取光流信息然后输入到RPR中。
  2. APR:绝对位姿估计模块,以三张序列图像为输入,posenet-based,
  3. RPR:相对位姿估计模块,以FlowNet2.0提取的光流信息为输入,LSTM -based
  4. PE:位姿估计模块,以APR、RPR的输出为输入,LSTM-based

在这里插入图片描述

APR:绝对位姿回归模块

以3连续图像为输入,同时输出3个对应的绝对位姿,用于捕获时间上下文。

RPR:相对位姿回归模块

使用FlowNet2.0计算三个图像对的光流估计:

在这里插入图片描述

这里作者提到光流图的尺寸太大(224x224x3)会导致LSTM记不住时间维度上的特征,因此采用了类似于平均池化并Flatten的操作,得到的尺寸为(256X3)

在这里插入图片描述

最后使用三个级联的LSTM和两个FC输出相对位姿预测

PE模块:

将APR与RPR输出的三个绝对位姿、三个相对位姿连接然后输入到两个级联的LSTM中,使用两个FC回归最终的绝对位姿: 在这里插入图片描述

损失函数:

RPR、PE模块均使用最简便的位姿损失:
R P R : L = α 2 ∥ Δ p ~ t r − Δ p t r ∥ 2 + β 2 ∥ Δ q ~ − Δ q ∥ Δ q ∥ 2 ∥ 2 P E : L ( P , Δ P ) = α 3 ∥ p ~ − p ∥ 2 + β 3 ∥ q ~ − q ∥ q ∥ 2 ∥ 2 RPR:\mathcal{L}=\alpha_{2}\left\|\Delta \tilde{\boldsymbol{p}}^{t r}-\Delta \boldsymbol{p}^{t r}\right\|_{2}+\beta_{2}\left\|\Delta \tilde{\boldsymbol{q}}-\frac{\Delta \boldsymbol{q}}{\|\Delta \boldsymbol{q}\|_{2}}\right\|_{2} \\ PE:\mathcal{L}(P, \Delta P)=\alpha_{3}\|\tilde{\boldsymbol{p}}-\boldsymbol{p}\|_{2}+\beta_{3}\left\|\tilde{\boldsymbol{q}}-\frac{\boldsymbol{q}}{\|\boldsymbol{q}\|_{2}}\right\|_{2} RPR:L=α2Δ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值