目前缺少用于语义分割的 3D LiDAR 数据吗?关于三维点云数据集和方法的调查
原文
Are We Hungry for 3D LiDAR Data for Semantic Segmentation? A Survey of Datasets and Methods
论文地址 https://arxiv.org/abs/2006.04307
摘要
3D 语义分割是机器人和自动驾驶应用的一项基本任务。 最近的工作主要集中在使用深度学习技术上,而开发精细注释的 3D LiDAR 数据集是极其劳动密集型的,并且需要专业技能。 由数据集不足引起的性能限制称为数据饥饿问题。
这项研究对以下问题进行了全面调查:我们是缺少3D LiDAR 数据进行语义分割?
这些研究在三个层次上进行。 首先,对主要的 3D LiDAR 数据集进行广泛审查,然后对三个代表性数据集进行统计分析,以深入了解数据集的大小、多样性和质量,这些是学习深度模型的关键因素。 其次,对 3D 语义分割方法进行了有组织的调查,重点关注使用深度学习技术的最新研究趋势的主流,然后对解决数据饥饿问题(data hunger problem)的现有方法进行系统调查。
最后,对方法论和数据集观点上的剩余问题进行了深入的讨论,并给出了关于数据集偏差、领域和语义差距的开放性问题,从而引出了未来工作中的潜在主题。 据我们所知,这是第一项使用深度学习技术研究 3D 语义分割的数据饥饿问题的工作,这在方法和数据集审查中都得到了解决,我们通过全面的数据集分析分享发现和讨论
引言
如今,LiDAR 已成为许多机器人 [1]、[2]、移动测绘 [3]、[4] 和自动驾驶 [5]、[6] 系统中的主要传感器。 在动态过程中从静态视点 [7] 或移动平台 [8] 捕获的 3D LiDAR 数据提供了具有真实大小的丰富 3D 几何图形的真实世界副本,可以以 3D 格式表示 点云 [9]、[10] 或 2D 网格 [11],例如距离图像,使用静态或数据帧序列。 语义分割[12]、[13]是场景理解的一项基本任务,它根据现实世界中有意义的分类法将整个输入数据划分为不同的语义可解释类别。 随着 LiDAR 传感器在各种应用中的广泛使用,3D LiDAR 数据 [14]、[15] 的语义分割越来越受到关注。 在下文中,我们提到 3D 语义分割来强调解决 3D LiDAR 数据特征的工作,以及潜在通用的语义分割。
语义分割已经研究了几十年。[16] 中对截至 2014 年的早期工作进行了全面回顾。 我们将这些作品称为传统方法,其特点是使用逻辑提取特征特征和自下而上的程序。 受深度学习技术 [17]、[18] 惊人成功的启发,最近的语义分割工作集中在使用深度神经网络来学习更丰富的特征表示,并在端到端中对从输入数据到语义标签的映射进行建模利用end-to-end 模式[19],以下称为深度学习方法。 然而,与传统方法相比,深度学习方法面临着相当大的挑战,即在训练中需要大量手动标记的数据[20]。 训练数据的数量、质量和多样性对深度学习模型的泛化性能有相当大的影响[21]、[22]。
训练数据不足造成的性能限制称为数据饥饿效应,它既体现在数据规模上,也体现在数据多样性上。 正如 G. Marcus 在 [23] 中所指出的,在取得长足进步和热情的背景下,数据饥饿问题是他在当前深度学习系统面临的十大挑战中首先关注的问题。 对于 3D 语义分割任务,需要具有逐点注释的 3D LiDAR 数据,其中 S3DIS [24]、Semantic3D [7] 和 SemanticKITTI [8] 是最流行的数据集。 这些数据集由人工操作员全部或部分注释,这既费时又费力,并且需要特殊的技能和软件,例如,操作员经过培训可以使用专业软件来可视化和注释 3D 点云,这很难解释 比二维图像。 由于这些困难,与 2D 图像 [25]、[26] 相比,用于 3D 语义分割的公开数据集在数据大小和多样性方面都非常有限。 因此,3D 语义分割甚至可能面临严重的数据饥饿问题。
在这项研究中,我们试图回答以下问题。
我们是否缺少使用深度学习技术进行语义分割的 3D LiDAR 数据? 可以采取哪些措施来解决方法论和数据集开发方面的问题,还有哪些问题需要在未来的研究中回答?
为了回答这些问题,在这项工作中采取了以下步骤。 第二节回顾了现有的 3D LiDAR 数据集,并通过对三个代表性数据集的统计分析,深入了解了数据大小和多样性。
第三节简要回顾了 3D 语义分割的现有方法,第四节回顾了已经进行或可能用于解决 3D 语义分割的数据饥饿问题的工作,然后在第五节讨论未来的主题和未解决的问题。
许多调查与这项工作有关。 [27]、[28] 回顾了文献中早期的 3D 点云分割和分类方法。 [12]、[13] [29] 回顾用于语义分割的方法和数据集。 此外,[14]、[15]、[30] [31]、[32] [33] 回顾了用于 3D 语义分割任务的深度学习方法。 此外,[34] 回顾了用于语义分割和检测的多模态方法。 然而,这些调查侧重于对现有方法的总结和分类,并没有强调 3D 数据集或数据饥饿问题。 据我们所知,这是第一项从 3D 语义分割的数据饥饿问题的角度对数据集和方法进行深入调查的工作。 我们工作的主要贡献如下:
• 对现有的 3D 数据集进行了广泛的回顾,根据数据获取方法及其主要应用分为静态数据集、顺序数据集和合成数据集,并对 3D 语义分割方法进行了有组织的调查,重点是主流的 3D 语义分割方法。 使用深度学习技术的最新研究趋势。
• 通过对三个具有代表性的 3D 数据集的数据大小、空间和类别分布、场景多样性和实例质量等方面的数据进行统计分析,深入了解数据饥饿问题,这些是深度学习性能的关键因素 楷模。
• 对解决数据饥饿问题的努力进行了系统调查,包括对精细注释数据要求较低的方法和劳动密集程度较低的数据注释方法,随后对剩余问题进行了深入的讨论并开放 问题,导致未来工作中的潜在主题。
II. 3D LIDAR DATASETS AND STATISTICAL ANALYSIS 3D 激光雷达数据集和统计分析
下面,我们回顾了公开可用的 3D LiDAR 数据集,然后对三个具有代表性的数据集进行了统计分析。
A. 3D LiDAR 数据集 根据数据采集方法和主要应用,3D LiDAR 数据集(如表一所列)分为三组: 1)静态数据集:通过地面激光扫描仪或使用 MLS(移动 激光扫描)系统,主要捕获静态场景对象,用于街景、3D 建模和虚拟现实等应用。 2) 序列数据集:从用于 ADAS(高级驾驶辅助系统)或自动驾驶应用程序的车辆平台收集的帧序列数据,可以进一步分为具有逐点或 3D 边界框注释的数据集。 3) 合成数据集:通过模拟上述任一数据采集系统在虚拟世界中采集的数据。 此外,最流行的图像和 RGB-D 数据集也列在表 I 中以进行比较。
1)静态数据集:静态数据集最常用于点云分类任务。 它们的主要应用场景包括机器人技术、增强现实和城市规划。
如图 1(a) 所示,地面激光扫描仪通常用于从固定视点收集静态密集的 3D LiDAR 数据。 诸如图 1(b) 的 MLS 系统从移动的车辆中捕获 LiDAR 帧序列。 然而,数据通常是静态的,它们重建了没有动态对象运动的大规模街景。
2)序列数据集:序列数据集最常用于自动驾驶任务。 如图 1© 所示,利用自动驾驶系统来捕捉街道上具有移动视点的 LiDAR 帧序列。 这些数据集通常包含比静态数据集更多的帧但稀疏的点。 此外,由于传感器的视点沿道路方向移动,因此道路类别的 LiDAR 点通常分布在一定的角度区域,可以根据系统的设置进行预测。
近年来,出现了具有逐点和实例标签的顺序数据集,这有助于研究 3D 语义分割 [59] 和全景全景分割 [60]。
3) 合成数据集:由于数据标注的劳动密集性,真实数据集的生成非常昂贵。 合成数据集是通过计算机模拟构建的,如图 1(d) 所示,它可以是大规模的,并且具有精细但廉价的注释。 使用此类数据集的问题是由合成场景和真实场景之间的巨大差距引起的。 合成场景通常可以非常逼真,但它们缺乏细节的准确性。 例如,GTA-V [54] 数据集中的行人具有细节丰富的 RGB 信息,但他们的物理模型被简化为圆柱体,由此产生的点云缺乏真实物体的必要细节。
- 与图像和 RGB-D 数据集的比较:表 I 列出了一些具有代表性的图像和 RGB-D 数据集,它们具有更大的规模。 与图像和 RGB-D 数据集相比,可以发现无论是用于自动驾驶场景中的语义分割的 Cityscapes [55] 和 ApolloScape [58],还是用于室内场景的 ScanNet [57],它们的像素/帧数都更加充足 比 3D LiDAR 的。 虽然图像和 RGB-D 的研究仍然面临数据饥饿问题,但在 3D LiDAR 数据集领域更为严重。
B. 数据集的统计分析 选择了三个具有代表性的数据集: 1) Sema