SynLiDAR:从合成 LiDAR 序列点云中学习语义分割特征
摘要
从合成数据到真实数据的迁移学习已被证明是减轻各种计算机视觉任务中数据注释约束的有效方法。然而,由于缺乏大规模高质量合成点云数据和有效的迁移学习方法,3D点云数据的发展落后于2D图像的发展。SynLiDAR是一种合成 LiDAR 点云数据集,其中包含具有准确几何形状和全面语义类别的大规模逐点注释点云。而PCTNet是一种旨在缩小与真实世界点云数据的差距的点云转换网络。对于 SynLiDAR,利用图形工具和专业人员构建多个具有丰富场景类型和布局的逼真虚拟环境,其中带注释的 LiDAR 点可以自动生成。最重要的是,PCTNet 将合成数据到真实数据的差距分解为外观组件和稀疏组件,并通过将两个组件分别与真实世界数据对齐来转换生成SynLiDAR。对多个数据增强和半监督语义分割任务的广泛实验显示出非常积极的结果。 SynLiDAR参与到训练中,可以训练更好的模型,减少现实世界的注释数据的时候,不会牺牲性能。PCTNet转换过的数据可以进一步提高模型性能。
主要贡献
LiDAR 序列点云的语义分割在各种场景感知任务中至关重要,近年来越来越受到工业界和学术界的关注。然而,训练有效的分割模型需要大量带注释的点云,由于3D数据的视图变化以及LiDAR 点云与物理世界之间的视觉不一致,收集这些点云非常耗时。
受二维 (2D) 领域中从合成数据到真实数据的迁移学习的巨大成功启发,减轻数据注释约束的一种可能方法是利用计算机引擎自动收集和注释数据。然而,收集大规模合成LiDAR序列点云是一项重要的任务,涉及大量虚拟场景和对象以及复杂的点生成过程。此外,大多数现有的迁移学习方法不适用于 3D 点云。很少有研究解决自然场景点云从合成到真实转换的工作,这主要是因为缺乏具有准确几何形状和丰富语义注释的大规模合成数据。
通过收集 Syn-LiDAR和设计 PCT-Net来解决在合成点云和真实点云之间的问题。在 SynLiDAR之上,PCT-Net 将合成域与真实域的差距分解为外观组件和稀疏组件。它由首先将合成点云转换为具有真实外观的中间表示的外观模块,以及学习现实世界点云的稀疏性并进一步将中间表示转换为具有真实外观的最终输出的稀疏模块组成。
这项工作的贡献主要包括三个方面:
首先,创建了 SynLiDAR,这是一个大规模合成 LiDAR 序列点云数据集,具有丰富的语义类和大量具有精确逐点注释的点。
其次,我们提出了PCT-Net,一种点云转换网络,可以将合成点云转换为具有与现实世界点云相似的特征和分布,从而有效地缩小合成点云和真实点云之间的域差距。PCT-Net 是第一个用于LiDAR序列点云的转换网络。
第三,进行了广泛的研究,并表明 SynL-iDAR 与现实世界数据具有高度相似性,并且可以以不同方式有效补充现实世界数据。PCT-Net减少了 SynLiDAR 和真实点云之间的域差距,其转换数据始终如一地训练更好的点云分割模型。
方法流程
一、SynLiDAR 数据集
SynLiDAR 是通过渲染由专业3D生成师使用 Unreal Engine 4 平台构建的虚拟场景来收集的。虚拟场景包括不同类型的户外环境,如城市、城镇、港口等。数据集还包含大量物理精确的对象模型,这些模型由建模专家使用3D-Max软件生成。采用现有的LiDAR传感器模拟器并将它们设置为与SemanticKITTI中使用的Velodyne HDL-64E相同的参数。点云数据以 10Hz 频率在完整的 360°水平 FOV 中收集。
强度是指激光雷达传感器接收到的激光信号强度,是激光雷达点云的一个重要属性。由于复杂的信号传输、传播和接收过程,在收集合成数据的同时模拟点强度十分具有挑战性。在 SynLiDAR中,通过训练一个渲染模型来解决这个问题,该模型从真实的LiDAR点云中学习并预测SynLiDAR的强度值。具体来说,使用 MinkowskiNet训练强度预测模型,并且把SemanticKITTI中点云的坐标和语义标签用作输入,点强度用作真实值。
SynLiDAR有13个带有逐点注释的LiDAR点云序列。具体而言,序列 00-03、04-06、07-11 和 12 分别来自城市、郊区城镇、邻里环境和港口。它有198,396次点云扫描,总共190 亿点,平均每次扫描大约有98,000个点。为细粒度的场景理解提供了32个语义类的精确逐点注释。图2显示不同类别的点分布。
二、点云转换
与大多数合成数据类似,SynLiDAR中的LiDAR 点云与真实 LiDAR 数据存在明显的领域差距,使用SynLiDAR训练的模型在应用于真实点云时通常会出现明显的性能下降。减轻域差距的一个直观想法是采用现有的点云重建模型将合成数据转换为具有真实数据分布。然而,现有的监督损失,如倒角损失和地球移动距离(EMD)不能规范激光雷达数据的稀疏分布,也很少有研究解决点云转换的工作。
为了解决这个问题,设计了PCT-Net,这是一种点云转换网络,可将合成点云转换为具有与真实点云相似的特征。将合成到真实的间隙分解为外观组件和稀疏组件,分别对场景几何和点稀疏的分布进行编码。 PCT-Net有一个外观模块和一个稀疏模块。两个组件如图 4 所示。
给定合成点云Xs和真实点云Xr,目标是将Xs转换为与Xr具有相似外观和稀疏性的映射。给定Xs,外观转换模块首先通过生成器GA通过Xs’ = GA (Xs )将其转换为具有一定的真实外观。转换后的点云然后由稀疏转换模块转换为具有某些真实稀疏特征的另一个生成器GS 。
实验结果
首先评估 SynLiDAR 如何使用RandLA-Net和MinkowskiNet增强 SemanticKITTI,如表 2 和表 3 所示。可以观察到,使用SynLiDAR 有助于为两个网络训练更好的模型。这对于点较少的前景类更为明显,这表明 SynLiDAR 与现实世界数据集 SemanticKITTI 具有某些相似之处。对于 RandLA-Net,包括 SynLiDAR 在内的mIoU提高了1.0%,其中前景类摩托车、卡车和其他车辆分别显着提高了8.1%、4.9%和5.9%。对于MinkowskiNet,包括SynLiDAR 在内的mIoU提高了1.5%,其中卡车和人的类别分别提高了5.9%和5%。
图 5 显示了 RandLA-Net 的定性结果。可以看出,在训练中加入 SynLiDAR 有助于训练更强大的模型。具体来说,SynLiDAR 为一些类提供了更多的训练样本,例如在 SemanticKITTI 中训练数据非常有限的人。SynLiDAR 因此增强了 SemanticKITTI 以更好地识别人,如第 1 列中的放大区域所示。类似地,其他车辆也可以通过更多合成样本更好地检测到,如第 2 列所示。
进一步评估了所提出的PCT-Net,并用NDF对其进行基准测试,NDF计算了KITTI的投影深度图像中空白像素的频率,并相应地删除了合成数据中的像素。如两个表2,3所示,NDF 不是很有效,只有0.3% 的mIoU改进,同时在训练中包括其修改后的SynLiDAR 数据。这主要是因为NDF采用统计方式模拟LiDAR点云的稀疏性,而稀疏性与语义信息高度相关,不能完全表示为统计频率。作为比较,PCT-Net达到了1.5%和1.6%的mIoU 改进,同时在训练中包括其转换的SynLiDAR,证明了 PCT-Net 在缓解 SynLiDAR 和 SemanticKITTI 之间的域差距方面的有效性。