论文标题:Moving event detection from LiDAR point streams
论文作者:Huajie Wu, Yihang Li, Wei Xu, Fanze Kong, Fu Zhang
导读: 动态物体检测在SLAM领域已不是新问题,现有方法大都从深度学习的角度来解决,导致在实际应用中难以实时部署,且泛化性较差。这些深度学习方法通常结合语义,且局限在图像二维平面,缺乏对动态物理意义上的建模。本文介绍了最新的类脑模型M-Detector,实现了点级别的动态点云流检测。M-Detector基于朴素的物理直觉——遮挡原理,模仿视觉巨细胞的工作机理,达到了超过现有深度学习方法的惊人性能,且计算开销远低于深度学习方法。©️【深蓝AI】编译
1. 摘要
在充满未知动态物体的环境中,机器人需要毫秒级别的动态信息检测。这项任务被称为动态事件检测,在机器人上通常使用事件相机(Event Cameras)来完成此任务。激光雷达(LiDAR)是机器人中十分重要的传感器,它能够获取环境中稠密且准确的深度信息。然而,基于激光雷达点云的动态事件检测方法仍然缺乏完善的研究。现有方法通过将扫描得到的激光点云累计成一帧,然后再进行目标级的动态检测。这导致了这些方法具有几十到几百毫秒的延迟。此论文提出了一种新型类脑模型M-Detector,能够在点云到达时刻即刻完成动态事件检测,具有毫秒级的响应速度。M-Detector的设计基于遮挡原理,并且可以应用于多种场景中。实验表明了M-Detector在准确性、计算效率、检测延迟以及泛化性上的优越性能。
2. 引言
机器人自治系统,包括自动驾驶汽车以及无人机等,有着便利人们生活的巨大潜力,例如最后一公里快递,无人出租车,农业自动化,航空拍摄等。然而,在实际场景中,未知的动态物体会对机器人的部署产生巨大的挑战。这些快速移动的物体,例如鸟类、投掷物体以及移动行人和车辆,造成了大量的机器人事故发生。为了避免这些问题,机器人需要具备检测高速移动物体并快速响应的能力。 相应的任务则被称为动态事件检测或事件检测(Event Detection)。
事件检测任务通常可以由事件相机完成,事件相机可以检测环境中光度的变化,并反映在像素中。当出现动态物体时,相机所拍摄区域的光度会发生变化,从而检测出动态物体。激光雷达(LiDAR)是另一类主流机器人传感器。不同于获取光度信息的相机,激光雷达通过发射射线检测回波延迟来获取环境中的深度信息。激光雷达的深度检测具有时间分辨率。因此,若要快速检测环境中的动态信息,需要在点云来临的时刻进行动态检测以降低延迟。
动态时间检测还可以在雷达回波处理中完成,例如连续调频波雷达(FMCW-LADAR)。相较于激光雷达,连续调频波通过频差的检测可以获得物体的速度。然而,所获得的速度为电磁波发射的法相,不能够检测环境中移动物体的全向速度。
研究者受到人脑视觉巨细胞的工作机理启发,设计了基于遮挡原理的检测动态事件方法M-Detector。遮挡原理在真实物理世界中普遍成立,因此M-Detector有着很高的泛化能力,且不需要真值标签进行训练。M-Detector的输入为点云流,实现了在任一激光深度点到达时刻的动态事件检测。研究人员还在KITTI,Semantic KITTI,Waymo以及unScenes数据集上进行了测试,实验结果证实了M-Detector的高准确度以及高计算效率。
▲图1 | 点云流动态事件检测效果示意图©️【深蓝AI】编译
3. 相关工作
首先,现有的激光雷达动态事件检测需要点云的累计,其频率较低,通常为10Hz。点云累计的时间显然对动态时间检测的延迟有很大影响,因此这些方法往往具有100ms以上的延迟。此外,这些方法对当前点云的检测依赖未来的点云信息,又会造成更大的检测延迟。对于使用占据栅格地图的方法,构建地图的计算和空间开销很大,对于实时系统来说部署困难。对于基于学习的方法,它们通常需要大量的标注数据进行训练。然而在实际应用中,很难统一不同形式的雷达点云格式并进行训练,因此泛化性较差。
4. 方法
受到人类大脑对视觉信息处理的启发,论文提出的M-Detector模型与人脑中的视觉巨细胞工作机理类似,使用了遮挡原理进行低延迟的快速动态物体检测。
▲图2 | 受生物学启发的M-Detector示意图©️【深蓝AI】编译
遮挡原理是自然界中普适的物理规律之一。如下图3所示:
●对于平行移动的物体,该物体会遮挡住背景信息;
●对于前向垂直运动的物体,过去时刻的物体会遮挡当前时刻的物体;
●对于反向垂直运动的物体,当前时刻的物体会遮挡过去时刻的物体。
▲图3 | 遮挡原理示意图©️【深蓝AI】编译
基于上述遮挡原理,论文提出了M-Detector的架构。如下图4所示,首先,M-Detector的输入可以为点或者一帧,将点云序列化后,将序列点云输入至事件检测模块中。同时,将累计至当前时刻的点云深度图像也输入至事件检测模块。事件检测模块包含了3种动态点检测方式:
●第一种检测方式针对的是垂直于激光射出方向的的移动,通过检测当前时刻输入点是否遮挡过去时刻的背景点,来判断是否为动态点;
●第二种检测方式针对的是远离雷达且平行于激光射出方向的的移动,通过检测过去时刻点是否遮挡其当前输入点,来判断是否为动态点;
●第三种检测方式针对的是靠近雷达且平行于激光射出方向的的移动,通过检测当前输入点是否遮挡其过去时刻点,来判断是否为动态点。
对于深度图的构建,流程如下图5所示。首先通过位姿变换,将雷达扫描得到的点云变换至图像平面内,在像素中存储了该像素所包含点深度的最大值和最小值。在一段时间内,将点云累计映射到像素平面内,完成1帧深度图的构建。
▲图4 | 深度图构建过程©️【深蓝AI】编译
对于是否遮挡的判断,如下图6所示。在图像的每个像素中,都存储了该像素种深度最大以及最小的点。当前输入点来临时,首先将其映射至像素上,然后与该像素及其邻域中的最大与最小深度比较,若大于阈值,则该点被过去点遮挡,若小于阈值,则该点遮挡了过去点。
▲图5 | 遮挡判断示意图©️【深蓝AI】编译
为了剔除异常检测点,论文进行了地图一致性检验:通过比较当前检测的动态点与过去积累点云检测的一致性,来剔除一些异常检测点。
5. 实验结果
为了验证所提出M-Detector的有效性,论文从准确性、计算效率、检测延迟以及泛化性上的多个角度进行了评估。
■5.1 准确性
在准确性方面,论文采用了常用的IoU指标来评价。论文分别在KITTI、Waymo、nuScenes以及AVIA-Indoor数据集上测试了M-Detector以及其他主流点云动态检测算法。如下图所示,M-Detector的IoU指标在所有数据集上均高于其他算法,并且具有很强的泛化性能,在不同数据集上都能达到类似的性能。图7中还展示了一些细节case,例如LMNet-8*算法由于过度信赖了语义,因此将静止的汽车和行人误识别成了动态物体,而SMOS算法则是漏检了一些移动的小目标,所提出的M-Detector能够很好的检测所有的大小目标,且不依赖于语义,能够直接提取物体的运动特性。
▲图6 | M-Detector准确度实验结果©️【深蓝AI】编译
■5.2 泛化性
在泛化性方面,由于M-Detector基于的遮挡原理在自然界中普遍成立,因此不论在KITTI、Waymo、nuScenes还是AVIA-Indoor上M-Detector都保持了稳定且优异的性能。而基于深度学习的算法在KITTI数据集上进行训练,因此在KITTI上的IoU较高。然而一旦迁移至其他数据集,深度学习算法的性能直线下降,由此可以看出实际上深度学习网络并没有很好学习到动态物体的物理特性。M-Detector在泛化性上远远优于深度学习方法。
■5.3 计算效率
在计算效率方面,如下图8所示。图a为不同算法计算一帧的计算开销对比,M-Detector的计算开销相比于其他算法而言最小。即使深度学习方法使用了GPU加速,其计算时间仍显著高于M-Detector。
▲图7 | M-Detector计算效率实验结果©️【深蓝AI】编译
■5.4 检测延迟
图8b展示了M-Detector为处理一帧雷达映像各个模块所开销的时间,总计算开销均可以在一帧雷达映像周期内完成。M-Detector的主要开销集中在3种动态物体检测流程中,在室外大场景下为几十毫秒级别,室内小场景为微秒级别。其总延迟在小于雷达的采样周期,留给控制器充足的时间对动态物体进行反映处理。
6. 结论
本文提出了一种类脑模型M-Detector,用于点级别的动态环境检测。M-Detector基于遮挡原理,模仿视觉巨细胞的工作机理,实现了高性能且低开销的点级别动态点云流检测,可应用于高动态避障以及高精建图等各种任务。
编译|Frank
审核|Los
移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。