Cylinder3D:一个有效的三维框架用于驾驶场景激光雷达语义分割
论文 Cylinder3D: An Effective 3D Framework for
Driving-scene LiDAR Semantic Segmentation CVPR2021
摘要:激光雷达的大规模行车场景语义分割方法经常对二维空间中的点云进行投影和处理。投影方法包括球面投影、鸟瞰图投影等。虽然这个过程使得点云适用于基于cnn的二维网络,但它不可避免地改变和放弃了三维拓扑和几何关系。一种解决3D到2d投影问题的直接方法是保持3D表示并处理3D空间中的点。在这项工作中,我们首先对二维和三维空间中的不同表示和骨干进行了深入的分析,并揭示了三维表示和网络在激光雷达分割中的有效性。然后,我们开发了一个三维柱体分区和一个基于三维柱体卷积的框架,称为Cylinder3D,该框架利用了驾驶场景点云的三维拓扑关系和结构。此外,还引入了基于维度分解的上下文建模模块,以循序渐进的方式探索点云中的高阶上下文信息。我们在一个大规模的驾驶场景数据集(即SematicKITTI)上评估所提出的模型。我们的方法达到了最先进的性能,在mIoU方面比现有方法高出6%。
1 Introduction
三维激光雷达传感器已经成为现代自动驾驶汽车中不可缺少的设备。与传统的视觉相机相比,它能捕捉到更精确、更远的周围环境测量距离。传感器的测量自然形成了三维点云,可以用来理解自动驾驶规划和执行的整体场景。
三维点云的语义分割是理解驾驶场景的关键。其目的是识别每个3D点的预定义类别,如汽车、卡车、行人等,提供整个3D场景的点式感知信息。
现有的基于点云的分割算法大多集中在室内场景,而室内场景的点云一般比较密集,且密度基本均匀。相比之下,在户外或自动驾驶场景中,激光雷达点云的分割方法很少,激光雷达点云的密度随着距离传感器的不同而变化,这对算法提出了很大的挑战。
目前的方法主要关注点特征表示[1,2,3]。LiDAR点云的点特征表示主要有三大类:距离图像[4,1]、鸟瞰图像[2]和体素分割[3,5]。将不规则分布的三维点云球面投影到二维密集网格上得到距离图像。鸟瞰图像压缩点高度信息,并共享鸟瞰地图上每个位置的全局高度特征。
但是,这些方法在进行3d - 2d投影时,可能会丢失某些准确的几何信息。
本文对激光雷达在自动驾驶场景中的分割重点进行了重新定位。本文进行实验,以显示不同的点特征表示和神经网络架构的有效性。实验表明,使用三维卷积神经网络进行三维分区的效果优于其他方法。针对驾驶场景点云密度的变化,提出了一种圆柱体分割的方法来处理驾驶场景点云,以平衡驾驶场景点云的分布。为了匹配驾驶场景激光雷达数据中的长方体物体,我们提出了非对称残差块作为基本模块来形成三维主干。除了网络搜索外,我们还提出了一种新的维分解块,通过一系列低秩卷积核有效地利用上下文信息。
本工作的贡献可以概括为三个方面。(1)我们研究了最先进的网络架构和不同的点特征表示,揭示了直接处理点云而不需要3d到2d投影是获得卓越分割性能的关键。(2)提出了一种柱面分割点云编码方案,该方案更好地遵循了三维驾驶场景点云的固有分布规律,并开发了一种基于三维卷积的框架。其中,设计了非对称残差块作为基本模块,并提出了一种新的维分解块,以循序渐进的方式探索上下文。(3)我们提出的LiDAR分割算法在驾驶场景语义分割基准上的性能优于目前最先进的分割算法,有6% mIoU的增益。