【论文笔记】辅助学习的视觉重定位 VLocNet++ && 2018

本文介绍了一种基于深度学习的多任务框架,该框架同时实现了语义分割、相机重定位和视觉里程计。通过自适应加权融合和自监督变换层,提高了模型在复杂环境下的鲁棒性和准确性。

Deep Multitask Learning for Semantic Visual Localization and Odometry


作者:Noha Radwan∗Abhinav Valada∗Wolfram Burgard

研究机构:德国弗莱堡大学

论文解决的问题

本文解决了语义分割+相机重定位+视觉里程计VO三个任务。相机重定位指的是绝对位姿预测,VO则是相对位姿预测。本文还发布了一个用于定位的数据集DEEPLOC dataset.

多任务学习模型的好处是可以提高模型的泛化性,不需要大量的标签数据,且一次计算完成了多个任务,效率高。

本文基于VLocNet,提出了一种自适应的加权方法,能够利用运动特定时间信息(motion-specific temporalinformation)来提高定位精度。这种自适应加权方法,在融合网络的两个特征图时,可以调整加权权值得到更加合适的权值比例,得到的融合入特征图能够更好的描述特征信息。

本文在VLocNet的基础上加以改进:

  1. 联合前一帧的信息来对运动特定信息(motion specific information)进行累积
  2. 使用提出的自适应融合层对激活区域的语义特征进行自适应融合
  3. 提出一种自监督变换层(warping),在语义分段模型中聚合场景级上下文。
论文方法介绍

模型结构:相对位回归网络(VO模块)、绝对位姿回归网络、语义分割网络

在这里插入图片描述

绝对位姿回归网络:

上图中间黄色的部分。中间两层红色的是本文提出的自适应权重融合层。

损失函数:
Lloc(f(θ∣It)):=LEuc(f(θ∣It))+LRel(f(θ∣It)) L_{loc}(f(θ|I_t)):=L_{Euc}(f(θ|I_t))+L_{Rel}(f(θ|I_t)) Lloc(f(θIt)):=LEuc(f(θIt))+LRel(f(θIt))
其中几何一致损失(相对位姿损失):
LRel(f(θ∣It))=LxRel(f(θ∣It))exp(−s^xRel)+s^xRel+LqRel(f(θ∣It))exp(−s^qRel)+s^qRel平移损失:LxRel(f(θ∣It)):=‖xt,t−1−(x^t−x^t−1)‖2旋转损失:LqRel(f(θ∣It)):=∣∣qt,t−1−(q^t−1−1q^t)∣∣2 L_{Rel}(f(θ|I_t)) =L_{x_{Rel}}(f(θ|I_t))exp(−\hat s_{x_{Rel}})+ \hat s_{x_{Rel}} + L_{q_{Rel}}(f(θ|I_t))exp(−\hat s_{q_{Rel}}) + \hat s_{q_{Rel}}\\ 平移损失:L_{x_{Rel}}(f(θ|I_t)):=‖x_{t,t−1}−(\hat x_t−\hat x_{t−1})‖^2\\ 旋转损失: L_{q_{Rel}}(f(θ|I_t)):=||q_{t,t−1}−(\hat q_{t−1}^{−1}\hat q_t)||^2 LRel(f(θIt))=LxRel(f(θIt))exp(s^xRel)+s^xRel+LqRel(f(θIt))exp(s^qRel)+s^qRelLxRel(f(θIt)):=xt,t1

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值