Deep Multitask Learning for Semantic Visual Localization and Odometry
作者:Noha Radwan∗Abhinav Valada∗Wolfram Burgard
研究机构:德国弗莱堡大学
本文解决了语义分割+相机重定位+视觉里程计VO三个任务。相机重定位指的是绝对位姿预测,VO则是相对位姿预测。本文还发布了一个用于定位的数据集DEEPLOC dataset.
多任务学习模型的好处是可以提高模型的泛化性,不需要大量的标签数据,且一次计算完成了多个任务,效率高。
本文基于VLocNet,提出了一种自适应的加权方法,能够利用运动特定时间信息(motion-specific temporalinformation)来提高定位精度。这种自适应加权方法,在融合网络的两个特征图时,可以调整加权权值得到更加合适的权值比例,得到的融合入特征图能够更好的描述特征信息。
本文在VLocNet的基础上加以改进:
- 联合前一帧的信息来对运动特定信息(motion specific information)进行累积
- 使用提出的自适应融合层对激活区域的语义特征进行自适应融合
- 提出一种自监督变换层(warping),在语义分段模型中聚合场景级上下文。
模型结构:相对位回归网络(VO模块)、绝对位姿回归网络、语义分割网络

绝对位姿回归网络:
上图中间黄色的部分。中间两层红色的是本文提出的自适应权重融合层。
损失函数:
Lloc(f(θ∣It)):=LEuc(f(θ∣It))+LRel(f(θ∣It)) L_{loc}(f(θ|I_t)):=L_{Euc}(f(θ|I_t))+L_{Rel}(f(θ|I_t)) Lloc(f(θ∣It)):=LEuc(f(θ∣It))+LRel(f(θ∣It))
其中几何一致损失(相对位姿损失):
LRel(f(θ∣It))=LxRel(f(θ∣It))exp(−s^xRel)+s^xRel+LqRel(f(θ∣It))exp(−s^qRel)+s^qRel平移损失:LxRel(f(θ∣It)):=‖xt,t−1−(x^t−x^t−1)‖2旋转损失:LqRel(f(θ∣It)):=∣∣qt,t−1−(q^t−1−1q^t)∣∣2 L_{Rel}(f(θ|I_t)) =L_{x_{Rel}}(f(θ|I_t))exp(−\hat s_{x_{Rel}})+ \hat s_{x_{Rel}} + L_{q_{Rel}}(f(θ|I_t))exp(−\hat s_{q_{Rel}}) + \hat s_{q_{Rel}}\\ 平移损失:L_{x_{Rel}}(f(θ|I_t)):=‖x_{t,t−1}−(\hat x_t−\hat x_{t−1})‖^2\\ 旋转损失: L_{q_{Rel}}(f(θ|I_t)):=||q_{t,t−1}−(\hat q_{t−1}^{−1}\hat q_t)||^2 LRel(f(θ∣It))=LxRel(f(θ∣It))exp(−s^xRel)+s^xRel+LqRel(f(θ∣It))exp(−s^qRel)+s^qRel平移损失:LxRel(f(θ∣It)):=‖xt,t−1

本文介绍了一种基于深度学习的多任务框架,该框架同时实现了语义分割、相机重定位和视觉里程计。通过自适应加权融合和自监督变换层,提高了模型在复杂环境下的鲁棒性和准确性。
最低0.47元/天 解锁文章
6万+





