【论文笔记】显著性信息辅助的视觉SLAM系统 SBAS: Salient Bundle Adjustment for Visual SLAM

本文提出了一种结合显著性检测与BA优化的SLAM系统,通过训练Salient-kitti数据集克服中心偏差,提升了在室内室外场景的定位精度。使用DI-Net预测显著性图,显著性特征点在BA中被赋予更高权重,从而提高轨迹追踪的鲁棒性。实验结果表明,该方法在Kitti和EuRoc数据集上超越了现有技术,尤其在抑制动态物体影响方面表现出色。代码即将开源。

重庆大学, 汽车工程专业, 重庆大学机械传动重点实验室

本文并不是第一个 利用显著性预测结果改进SLAM系统的工作,但是之前的工作都没有意识到显著性检测模型存在中心偏差的问题,这导致在没有显著性区域的场景中,显著性模型会将注意力集中在图像的中心区域,造成轨迹追踪失败。本文首先用语义分割模型SDC-Net对kitti数据集进行语义分割,得到包含静态目标的真值标签,然后根据此salient-kitti数据集对显著性模型进行训练,克服了中心偏差,在室内室外均取得了SOTA的精度。

Abstract

传统的视觉SLAM系统在优化阶段, 将所有的特征点看作是等权重的。然而,作者认为显著性特征点应当在优化阶段扮演更重要的角色。

论文提出了显著性检测模型,其预测的显著性图能够同时捕获场景语义信息以及几何信息。然后,基于显著性的BA用于替换传统的BA优化,其利用显著性图作为特征点的权重进行优化。

在KITTI、EuRoc数据集上的测试表明论文方法在室内室外场景中均超越了现有方法,代码即将开源

Introduction

SLAM技术在自动驾驶、医疗机器人、增强现实、虚拟现实等领域具有非常重要的作用。SLAM主要可以分为基于几何结构的方法以及基于深度学习的方法。其中,基于几何结构的方法在精度和速度方面取得了非常大的进展(如orb-slam2)。但是,这些方法缺少的一个最重要的特征是从大规模数据集中自动学习知识的能力。因此,这些方法很难从现有的大规模数据中获益。这就引出了基于深度学习的SLAM方法以及VO方法。基于此,本文方法利用两种方法较好的互补性,在SLAM系统中同时纳入几何方法和深度学习方法。

现有的深度学习方法尝试将语义先验信息结合到slam系统中来抑制动态物体, 然而即使是动态物体也有静止的时候。这些方法将选择的特征点都当做是同等重要来看待。

人类在陌生环境中进行定位时,首先关注的是显著目标或者特征,然后对这些目标给予不同的权重。这种方法能够主动发现并观察那些对于特定任务有用的特征,比如地标建筑等。受此启发,一些结合了显著性和注意力机制的SLAM方法被提出: Salient-DSO利用显著性模型来定性的模仿人类视觉,从显著性区域中选择特征点。然而,这个显著性模型并没有完全描述SLAM系统应该关注的所有事情,这使得它无法在户外环境中工作,这主要是由于人类注视数据集的单焦点和中心偏差造成的。

因此,本文首先提出了一个开源的显著性数据集,Salient-kitti(基于kitti数据集)。不同于只关注人类注意力,本文提出的数据集还考虑了几何和语义信息。基于Salient-kitti, 作者使用DI-Net作为显著性检测模型来预测SLAM系统应当关注的区域。

DI-Net: Yang S , Lin G , Jiang Q , et al. A Dilated Inception Network for Visual Saliency Prediction[J]. IEEE Transactions on Multimedia, 2019, PP(99):1-1.
最后,基于预测的显著性区域,作者在BA优化环节给显著性特征点赋予更高的权重,即 Salient Bundle Adjustment,(SBA)

本文贡献:

  1. 提出了室内机室外可用的显著性SLAM系统,可用于多种场景
  2. 提出了一种生成 Salient 数据集的方法,其生成的Salient-kitti也即将开源。
  3. 提出了一种基于显著性的BA优化方法,来模仿人类的视觉系统

Related Works

显著性检测
非常多,代表性的有: DeepNet [45], SALICON-Net [46], SalGAN[31], DeepVS [40], ACL-Net [26], and DeepFix [41]
在自动驾驶领域,有工作专注于驾驶员显着性预测,以分析驾驶员的注意力行为以及道路场景,以预测潜在的不安全行为。
[28]则采集了驾驶场景中的人眼跟踪数据,提出了一种基于卷积反卷积神经网络的驾驶场景显著性预测方法。[30]提出了一种语义增强显著性检测方法,通过考虑深度,车速和行人穿越意图来预测显着区域。然而,这些模型更多地集中在车辆、行人和道路等方面。由于静态环境的假设,这些区域的特征点在SLAM、VO任务中是不稳定的。我们希望显着性模型更多地关注纹理丰富且稳定的区域,例如道路标线,交通信号灯,交通标志,并忽略动态物体。为此,我们提出了一种结合几何和语义信息的显著性预测模型来解决这一问题
SLAM
主流的SLAM方法可以分为特征点法和直接法。基于特征的方法通过从图像中提取和匹配兴趣点来估计相机姿态,而直接方法则直接使用图像中的像素强度,通过最小化光度误差来估计相机姿态。特征点法代表工作有Mono-SLAM , PTAM , orb-slam等。直接法代表工作有DTAM,SVO,LSD-SLAM,DSO等。

此外,基于深度学习的SLAM、VO工作也取得了较大的进展。PoseNet是第一个端到端预测相机位姿的深度网络模型。之后,DeepVO, ESP-VO等等。
将深度学习和几何方法结合也是SLAM研究的热点。 DynaSLAM[65],[66]利用深度学习和多视图几何来分割动态对象。DS-SLAM[25]将语义分割和运动一致性检查相结合,减少动态对象的影响,提高动态环境下的准确性。Salient-DSO [29]利用视觉显着和注意力机制提取了显着区域的特征点。 该方法提高了DSO的性能。但是,此框架只能在室内环境中工作。 因此,作者通过使用论文提出的显着性模型和显著性BA将该方法扩展到室外环境。

本文方法:SBAS

在这里插入图片描述

使用orb-slam3作为backbone, 显著性预测模块的输出辅助SLAM系统选择显著性特征点,进而提高精度和鲁棒性。上图红色部分是论文改进的地方。

1. Saliency prediction

现有很多关于显著性检测的方法,但是这些显着性预测方法不能完全描述VO / SLAM系统应注意的所有方面,这主要是由于训练数据集存在中心偏差:这些方法只使用原始的人类注视信息,而人类的注视将停留在车辆前方的道路上,因为这是车辆行驶的地方。但是这还不够,因为SLAM/VO还需要聚焦在远离图像中心的区域,仅仅依靠人眼跟踪器获得的图像数据并不能帮助捕捉所有这些重要的线索。

为了解决这一问题,作者采用了与[30]相似的策略,将几何信息和语义信息相结合,制作了一个显著数据集来训练显著性检测模型,它用语义注视代替人类注视真值。该数据集基于KITTI目标检测数据集。首先提取每幅图像的几何信息,如特征点、线和平面。这是因为经典的SLAM/VO方法通常关注具有丰富几何信息的区域。然后使用SDC Net[67]生成感兴趣对象的语义分割mask。

SDC Net: Zhu Y , Sapra K , Reda F A , et al. Improving Semantic Segmentation via Video Propagation and Label Relaxation[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020.

作者选取了13个类别(交通灯、交通标志、道路、建筑物、人行道、停车场、轨道、栅栏、桥梁、杆、杆组、植被、地面)来过滤几何信息,这些类别的区域通常包含显著、稳定和健壮的特征。因此,动态区域中的特征不会出现在数据集中,例如移动的车辆,人,骑手等。
在这里插入图片描述

根据Salience-kitti数据集,就可以训练出显著性检测模型DI-Net, 得到初始的显著性图。(后面会用深度对初始得限制性值进行放缩)
此外,驾驶员会对距离更近的目标赋予更多的注意力,因为可能会发生碰撞。因此作者使用了单目深度估计网络MonoDepth 来生成深度图,保证预测的显著性图的正确性。此外,如果有激光雷达数据,可以用depth completion network来生成质量更高的深度图。
显著性图预测算法步骤:
在这里插入图片描述

在这里插入图片描述

2. Salient Bundle Adjustment

有了显著性图,就可以用于预测位姿了。

  • 在tracking thread中,BA用于优化相机的自身运动((motion-only BA)
  • 在local mapping thread中,BA用于优化局部时间窗内所有关键帧以及地图点(Local BA )
  • 在loop closure thread中, BA用于优化所有关键帧以及地图点(full BA)

在传统的BA中,所有特征点都是同等重要的,这使得最突出的特征点不能起到更大的作用。因此,作者提出了Salient BA:

Motion-only BA:
该步骤通过最小化匹配的3D世界点X∈R3X\in R^3XR3和图像特征点x∈R2x\in R^2xR2之间的距离优化相机的朝向R和平移量T:
{ R,t}=arg⁡min⁡R,t∑i∈Xρ(wi∥x(⋅)i−π(⋅)(RXi+t)∥Σ2)\{\mathbf{R}, \mathbf{t}\}=\underset{\mathbf{R}, \mathbf{t}}{\arg \min } \sum_{i \in \mathcal{X}} \rho\left(w_{i}\left\|\mathbf{x}_{(\cdot)}^{i}-\pi_{(\cdot)}\left(\mathbf{R} \mathbf{X}^{i}+\mathbf{t}\right)\right\|_{\Sigma}^{2}\right){ R,t}=R,targminiXρ(wix()iπ()(RXi+t)Σ2

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值