CARLA Drone: 首个实现从不同空中视角进行单目3D目标检测,并提供数据集
Abstract
现有的单目3D检测技术存在一个严重的限制。它们通常只能在有限的基准测试集上表现良好,要么在自车视角表现出色,要么在交通摄像机视角表现出色,但很少能同时在两者上表现良好。为了促进这一领域的进展,本文倡导对3D检测框架进行不同相机视角的扩展评估。我们提出了两个关键贡献。首先,我们引入了CARLA无人机数据集CDrone。该数据集模拟了无人机视角,大大增加了现有基准测试集中相机视角的多样性。尽管它是合成数据,但CDrone代表了一种真实的挑战。为证明这一点,我们确认了现有技术难以同时在CDrone和一个真实世界的3D无人机数据集上表现出色。其次,我们开发了一种名为GroundMix的有效数据增强管道。其独特之处在于使用地面来创建训练图像的3D一致性增强。GroundMix显著提升了一种轻量级单阶段检测器的检测准确性。在我们扩展的评估中,我们达到了与之前最先进技术相当或显著更高的平均精度,且适用于所有测试数据集。
项目地址:https://deepscenario.github.io/CDrone/
Introduction
检测交通参与者对提高道路安全和开发可靠的自动驾驶汽车至关重要。而从单幅图像中检测3D物体尤其具有挑战性。然而,以往的单目3D目标检测研究主要集中在自车视角,这仅提供了对交通的有限视角。通过利用广泛可用的监控摄像头,甚至无人机搭载的摄像头,可以获得更全面的理解,这些都可以在图1中体现出来。这些交通场景中的视角多样性为3D目标检测带来了独特的技术挑战。不出所料,当前的最先进技术往往仅能在特定视角下表现良好,而难以对其他相机视角进行准确预测。
为解决上述局限性,我们的工作提供了两个贡献。首先,我们设计了一个包含三类相机视角的综合基准测试集:自车视角、交通监控视角和无人机视角(参见图1)。该基准测试集的目标是对单目3D检测方法进行不同相机视角下的“压力测试”。这与之前仅关注单一视角检测的工作形成对比。自车和监控视角的数据可以从现有数据集(如Waymo和Rope3D)中轻松获取。然而,交通场景的真实世界无人机图像非常稀缺。因此,我们利用CARLA模拟器生成了一个带有精确3D注释的合成无人机数据集CDrone。为了支持CDrone的研究价值,我们展示了在内部真实世界无人机数据集和合成CDrone上的实验结果的一致性。
作为我们的第二个贡献,也是朝着单目3D目标检测器多功能性迈出的一步,我们开发了一种有效的数据增强管道——GroundMix。它将一致性正则化的常见技术(如缩放、2D-3D一致性旋转以及MixUp)扩展到了单目3D检测任务。GroundMix的关键新组件利用了地面平面方程,从而实现了3D感知的图像编辑。具体来说,它将挖掘出的困难对象样本放置在估计的地面平面上,从而呈现出越来越复杂的训练场景。