对SLAM和自动驾驶定位的思考,最新自动驾驶视觉SLAM方法综述!

本文综述了视觉SLAM在自动驾驶车辆中的应用,包括基于特征和直接方法的单目、双目和RGB-DSLAM,以及视觉-惯性、视觉-LIDAR和视觉-LIDAR-IMU融合SLAM系统。讨论了实时性能、定位精度和测试问题,指出未来趋势是多传感器融合和轻量化设计,以应对真实世界中的挑战。

摘要

自动驾驶车辆在不同的驾驶环境中需要精确的定位和建图解决方案。在这种背景下,SLAM技术是一个很好的解决方案。LIDAR和相机传感器通常用于定位和感知。然而,经过十年或二十年的发展,激光雷达SLAM方法似乎没有太大变化。与基于激光雷达的方案相比,视觉SLAM具有低成本和易于安装的优点,具有较强的场景识别能力。事实上,人们正试图用相机代替激光雷达传感器,或者在自动驾驶领域中基于相机集成其他传感器。基于视觉SLAM的研究现状,本文对视觉SLAM技术进行了综述。特别是,论文首先说明了视觉SLAM的典型结构。其次全面回顾了视觉和基于视觉(即视觉-惯性、视觉-LIDAR、视觉-LIAR-IMU)SLAM的最新研究,并将论文之前工作的定位精度与公共数据集上的知名框架进行了比较。最后,讨论了用于自动驾驶车辆的视觉SLAM技术的关键问题和未来发展趋势。

简介

随着机器人技术和人工智能(AI)技术的发展,自动驾驶车辆(汽车)已成为工业界和学术界的一个热门话题(Badue等人,2021)。为了安全导航,它需要为周围环境创建一个准确的表示,并估计其中的自车状态(即自车定位)。传统的定位方法基于GPS或实时动态(RTK)定位系统(Cadena等人,2016b)。然而,由于信号反射、时间误差和大气条件,GPS的测量误差限制在十几米以内,这对于车辆导航来说是不可接受的,尤其是当车辆在隧道和城市峡谷场景中行驶时(Cheng等人,2019)。RTK能够通过固定校准基站的内部校正信号来校正这些误差,但这种系统依赖于成本较高的附加基础设施(Infotip Service GmbH,2019)。SLAM方法被认为是自动驾驶车辆定位和导航的良好解决方案,它可以实时估计移动车辆的姿态,同时构建周围环境的地图(Durrantwhyte和Bailey,2006)。根据传感器类型的不同,SLAM方法主要分为两类:LIDAR SLAM和视觉SLAM。由于激光雷达SLAM比视觉SLAM启动得早,因此在自动驾驶仪的应用中相对成熟(Debeunne和Vivet,2020a)。与相机相比,激光雷达传感器对光照和夜间的变化不太敏感。此外,它还可以提供具有更大视野(FOV)的3D地图信息。然而难以负担的成本和大规模的长开发周期导致激光雷达传感器难以普及。相比之下,视觉SLAM具有信息丰富、易于安装的优点,并且使系统更便宜、更轻。目前视觉SLAM系统可以在微型个人计算机(PC)和嵌入式设备中运行,甚至可以在智能手机等移动设备中运行(Klein和Murray,2009)。

与室内或室外移动机器人不同,自动驾驶车辆具有更复杂的参数,尤其是当车辆在城市环境中自动驾驶时。例如,环境的面积更大,有动态障碍,因此视觉SLAM方法的性能不够准确和鲁棒(Cadena等人,2016a)。诸如误差累积和照明变化以及快速运动等问题导致有问题的估计。已经考虑了各种方法来解决与自动驾驶车辆相关的这些问题。例如用于视觉里程(VO)的基于特征点/直接/半直接/点线融合的算法(Singandhupe和La,2019),以及用于姿态估计的扩展卡尔曼滤波器(EKF)/基于图的优化算法(Takleh等人,2018)。同时,基于视觉的多传感器融合方法也为提高自主系统的精度而引起了极大的关注。

在基于视觉的SLAM系统中,除了建图模块之外,传感器数据的收集(如相机或惯性测量单元(IMU)、VO和视觉惯性里程计(VIO)系统)在前端完成,而优化、闭环在后端完成。重定位始终被认为是提高视觉SLAM系统准确性的附加模块(Taketomi等人,2017)。本文综述了视觉SLAM方法。这主要是从视觉SLAM系统的定位精度方面考虑的,并且已经尽可能详细地研究了可能应用于自动驾驶场景的方法,包括纯视觉SLAM方法、视觉-惯性SLAM方法和视觉-LIDAR-惯性SLAM方法,并且将论文先前工作的定位精度与公共数据集上的已知方法进行了比较。这篇综述对视觉SLAM技术进行了详细的综述,可以为自动驾驶汽车领域的新研究人员提供友好的指南。此外,它可以被视为一本词典,供有经验的研究人员在未来的工作中寻找可能的方向。

视觉SLAM原理

视觉SLAM系统的经典结构可分为五个部分:相机传感器模块、前端模块、后端模块、回环模块和建图模块。如图1所示,相机传感器模块负责收集图像数据,前端模块负责跟踪两个相邻帧之间的图像特征,以实现初始相机运动估计和局部建图,后端模块负责前端的数值优化和进一步的运动估计,回环模块负责通过计算大规模环境中的图像相似度来消除累积误差,建图模块负责重建周围环境(Gao等人,2017)。

653fab83e1d97c960a4cfb3756a8b844.png

相机传感器

根据传感器类型的不同,常见的视觉传感器主要可分为单目、双目、RGB-D和事件摄像机。摄像机传感器如图2所示。

b0f2f93038c9aa8a9f5a6242e53b06ee.png

市场上流行的视觉传感器制造商和产品如下,但不限于:

  • MYNTAI:S1030系列(带IMU的双目摄像头)、D1000系列(深度摄像头)、D1200系列(适用于智能手机);

  • Stereolabs ZED:Stereolab ZED相机(深度范围:1.5至20米);

  • Intel:200系列、300系列、Module D400系列、D415(主动红外双目、滚动快门)、D435(主动红外双目、全局快门)、D4 35i(集成IMU);

  • 微软:Azure Kinect(适用于带IMU的麦克风)、Kinectc-v1(结构光)、Kinect-v2(TOF);

  • Occipital Structure:Structure Camera (应用于ipad);

  • 三星:第2代和第3代动态摄像头和基于事件的视觉解决方案(Son等人,2017b)。

前端

视觉SLAM的前端被称为视觉里程计(VO)。它负责基于相邻帧的信息粗略地估计相机运动和特征方向。为了获得具有快速响应速度的精确姿态,需要有效的VO。目前,前端主要可分为两类:基于特征的方法和直接方法(包括半直接方法)(Zou等人,2020)。本节主要回顾VO的基于特征的方法。关于半直接和直接方法在后文。

基于特征点的VO系统运行更稳定,对光和动态目标相对不敏感。具有高尺度和良好旋转不变性的特征提取方法可以大大提高VO系统的可靠性和稳定性(Chen等人,2019)。1999年,Lowe(2004)提出了尺度不变特征变换(SIFT)算法,该算法在2004年得到了改进和发展。整个算法分为三个步骤来完成图像特征点的提取和描述。(i) 通过高斯差分金字塔方法构建尺度空间,并通过高斯微分函数识别感兴趣的点。(ii)确定每个候选的位置和比例,然后找出关键点。(iii)将指向特征指定给关键点以获得描述子。

SIFT消耗大量计算。SURF(Herbert等人,2007)是SIFT的改进。它解决了SIFT运算量大、实时性差的缺点,保持了SIFT算子的优良性能。尽管如此,SURF算法在应用于实时SLAM系统时具有更大的局限性。在保证性能的基础上,提出了一种更加注重计算速度的特征提取算法。2011年,Viswanathan(2011)提出了一种基于模板和机器学习方法的局部角点检测方法,即FAST角点检测法。FAST算法将要检测的像素作为圆心,当具有固定半径的圆上的其他像素与圆心的像素之间的灰度差足够大时,该点被认为是角点。然而,FAST角点不具有方向和尺度信息,它们不具有旋转和尺度不变性。2012年,Ru

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值