【论文笔记】辅助学习的视觉重定位 VLocNet++ && 2018

最新推荐文章于 2025-11-17 11:36:23 发布

原创

最新推荐文章于 2025-11-17 11:36:23 发布 · 1.7k 阅读

3 ·

CC 4.0 BY-SA版权

本文介绍了一种基于深度学习的多任务框架，该框架同时实现了语义分割、相机重定位和视觉里程计。通过自适应加权融合和自监督变换层，提高了模型在复杂环境下的鲁棒性和准确性。

Deep Multitask Learning for Semantic Visual Localization and Odometry

作者：Noha Radwan∗Abhinav Valada∗Wolfram Burgard

研究机构：德国弗莱堡大学

论文解决的问题

本文解决了语义分割+相机重定位+视觉里程计VO三个任务。相机重定位指的是绝对位姿预测，VO则是相对位姿预测。本文还发布了一个用于定位的数据集DEEPLOC dataset.

多任务学习模型的好处是可以提高模型的泛化性，不需要大量的标签数据，且一次计算完成了多个任务，效率高。

本文基于VLocNet，提出了一种自适应的加权方法，能够利用运动特定时间信息（motion-specific temporalinformation）来提高定位精度。这种自适应加权方法，在融合网络的两个特征图时，可以调整加权权值得到更加合适的权值比例，得到的融合入特征图能够更好的描述特征信息。

本文在VLocNet的基础上加以改进：

联合前一帧的信息来对运动特定信息（motion specific information）进行累积
使用提出的自适应融合层对激活区域的语义特征进行自适应融合
提出一种自监督变换层（warping），在语义分段模型中聚合场景级上下文。

论文方法介绍

模型结构：相对位回归网络（VO模块）、绝对位姿回归网络、语义分割网络

在这里插入图片描述

绝对位姿回归网络：

上图中间黄色的部分。中间两层红色的是本文提出的自适应权重融合层。

损失函数：
$L_{loc}(f(θ|I_t)):=L_{Euc}(f(θ|I_t))+L_{Rel}(f(θ|I_t))$
其中几何一致损失（相对位姿损失）：
$LRel(f(θ∣It))=LxRel(f(θ∣It))exp(−s^xRel)+s^xRel+LqRel(f(θ∣It))exp(−s^qRel)+s^qRel平移损失：LxRel(f(θ∣It)):=‖xt,t−1−(x^t−x^t−1)‖2旋转损失：LqRel(f(θ∣It)):=∣∣qt,t−1−(q^t−1−1q^t)∣∣2 L_{Rel}(f(θ|I_t)) =L_{x_{Rel}}(f(θ|I_t))exp(−\hat s_{x_{Rel}})+ \hat s_{x_{Rel}} + L_{q_{Rel}}(f(θ|I_t))exp(−\hat s_{q_{Rel}}) + \hat s_{q_{Rel}}\\ 平移损失：L_{x_{Rel}}(f(θ|I_t)):=‖x_{t,t−1}−(\hat x_t−\hat x_{t−1})‖^2\\ 旋转损失： L_{q_{Rel}}(f(θ|I_t)):=||q_{t,t−1}−(\hat q_{t−1}^{−1}\hat q_t)||^2$