(已开源) 详解4D Radar数据集K-Radar

自动驾驶小学生

已于 2024-12-16 09:13:46 修改

阅读量1.3k

点赞数 7

文章标签： K-Radar 4D Radar

于 2024-12-15 15:50:38 首次发布

本文链接：https://blog.youkuaiyun.com/cg129054036/article/details/144487433

版权

在这里插入图片描述

本文介绍一个4D Radar公开数据集：KAIST-Radar（简称K-Radar，由AVELab提供）是一个新型的大规模目标检测数据集和基准测试集，包含35000帧4D雷达张量（4DRT）数据。本文主要贡献有：

本文提出了一种新颖的基于4DRT的数据集K-Radar，用于3D目标检测。K-Radar 是第一个基于大规模4DRT的基准数据集，具有不同的和具有挑战性的光照、时间和天气条件。通过仔细标注的3D框标签和多模式传感器，K-Radar还可以用于其他自动驾驶任务，如目标跟踪和里程计。
本文提出了一种直接使用4DRT作为输入的三维目标检测基线神经网络，验证了4DRT的高度信息对于3D目标检测是必不可少的。我们还展示了基于4DRT的自动驾驶感知的鲁棒性，特别是在不利的天气条件下。
本文还提供了开发工具包，包括：（1）训练/评估代码，（2）标定/标注代码，以及（3）可视化工具来加速基于4DRT的自动驾驶感知研究。

项目链接：https://github.com/kaist-avelab/K-Radar?tab=readme-ov-file

文章目录

Introduction & Related Works

首先回顾下FMCW Radar的信号处理流程，如下图所示。Radar Tensor 是一个密集的数据矩阵，通过对FMCW信号进行快速傅里叶变换操作得到。由于矩阵所有元素都是非零值，RT以最小的损失提供有关环境的密集信息，但代价是高内存需求。另一方面，Radar Point Cloud 是另一种数据类型，其中通过将CFAR算法应用于 RT，以少量内存的点云形式提取目标信息。由于直接在硬件上实现FFT和CFAR容易，许多雷达传感器提供RPC作为输出。然而，由于CFAR算法，RPC 可能会丢失有关环境的大量信息。

在这里插入图片描述
表1是自动驾驶目标检测公开数据集的对比，包括Nuscenes、KITTI、Waymo等大规模数据集。可以看到K-Radar包含RT、RPC、LPC、Camera、GPS等不同形式数据。

表2是不同数据集天气和光照条件对比，K-Radar包含fog、snow、rain、sleet、day、night等多种天气。
在这里插入图片描述

K-Radar

下面首先介绍 K-Radar数据集传感器配置、数据收集过程和数据分布情况以及本文提出的目标检测基线网络。

为了收集恶劣天气下的数据，根据图3所示的配置，安装了五种防水传感器。首先，将4D雷达连接到汽车前保险杠处。其次，64线长距激光雷达和128线高分辨率激光雷达安装于汽车中间上方不同高度位置(图3-(a))。长距激光雷达点云用于精确标注各种距离的目标，而高分辨率激光雷达点云提供密集信息，具有44.5度垂直视角。第三，将立体相机放置在车辆的前侧、后侧、左侧和右侧，得到四个立体RGB图像，从自车的角度覆盖360度视野。最后，在车辆后部安装RTK-GPS天线和两个IMU传感器，以实现自车的准确定位。

在这里插入图片描述
大多数恶劣天气条件下的数据都是在韩国江口收集的，韩国是全国降雪最高的省。另一方面，城市环境的数据大多是在韩国大田收集的。数据收集过程产生了35000帧多模态传感器测量，构成K-Radar数据集。我们将整个数据集划分为训练集和测试集，如下图所示，测试集和训练集在不同天气条件的分布尽可能保持相同。

在这里插入图片描述
总共标注了93300个3D框（轿车、公共汽车或卡车、行人、自行车和摩托车)，标注范围为自车纵向120米内，横向80米内。请注意，我们只标注出现在自车纵向前方的目标。在图5中，展示了K-Radar数据集中物体类别和物体距离的分布。

在这里插入图片描述
与缺乏高度信息的 3D 雷达张量 (3DRT) 不同，4D 雷达张量 (4DRT) 是一个密集数据张量，在四个维度上进行功率测量：多普勒、距离、方位角和俯仰角。然而，密集数据的附加维度对将4DRT可视化为稀疏数据提出了挑战。为了解决这个问题，我们通过启发式处理将4DRT可视化为笛卡尔坐标系中的二维热图，如图 6(a) 所示，这导致鸟瞰图 (BEV-2D)、前视图 (FV-2D) 和左视图 (SV-2D) 中的2D热力图可视化。我们将这些 2D 热力图统称为 BFS-2D。

在这里插入图片描述
通过BEV-2D热力图，我们可以直观地验证4D雷达对恶劣天气条件的鲁棒性，如图2所示。如前所述，在雨、雪、雪等不利天气条件下，相机和激光雷达测量可能会恶化。在图 2-(e,f) 中，表明激光雷达对远距离物体的测量在重雪条件下会丢失。然而，4DRT的BEV-2D热力图清楚地表明了对边界框边缘进行高功率测量的目标。即使使用BFS-2D热力图，人类标注识别出现在帧上的目标形状并准确标注相应的3D 边界框仍然具有挑战性。因此，我们开发了一个工具，可以在激光雷达点云中实现3D边界框标注，其中目标形状为更容易识别。此外，由于恶劣的天气条件，我们使用BEV-2D热力图来帮助标注者在激光雷达测量丢失的情况下进行标注。

我们提供了两个基线神经网络来证明高度信息对3D目标检测的重要性：（1）具有高度的雷达张量网络(RTNH)，它使用 3D Sparse CNN 从 RT 中提取特征图 (FM)，以便利用高度信息； (2) 没有高度的雷达张量网络(RTN)，它使用不 2D CNN 从 RT 中提取 FM。

如图7所示，RTNH和RTN都包含预处理、主干网、Neck和检测头模块。预处理将4DRT从极坐标转换为笛卡尔坐标，并在感兴趣区域(RoI)中提取3DRT-XYZ。注意，我们通过沿多普勒维度取均值降低多普勒维度。然后主干网提取特征FM。检测头从Neck拼接后的特征预测目标框。

RTNH和RTN的网络结构，除了主干网之外是相似的。我们分别使用3D SparseConv(3D-SCB)和2D DenseConv(2D-DCB)构建了RTNH和RTN的主干网。3D-SCB 利用3D稀疏卷积以便将三维空间信息 (X, Y, Z) 编码到最终的FM中。我们选择在稀疏RT（RT 中的前30%功率测量）上使用稀疏卷积，因为原始RT上的密集卷积需要大量内存和计算，不适合实时自动驾驶应用。与3D-SCB不同，2D-DCB使用2D卷积，因此仅将二维空间信息 (X, Y) 编码到最终的FM中。

在这里插入图片描述

Experiment

在本节中，我们将展示基于4DRT的感知模型在各种天气下的鲁棒性，并比较了基线神经网络和类似结构的基于激光雷达的PointPillars模型之间的3D目标检测性能。我们还通过对比RTNH和RTN模型之间的3D目标检测性能来讨论高度信息的重要性。

我们将检测目标设置为sedan类，该类在K-Radar数据集中的样本数量最大。在实验中，我们利用广泛使用的IOU的平均精度AP度量来评估3D目标检测性能，我们对比了3D和BEV下的AP。在表3中展示了RTNH和RTN模型的检测性能比较。可以观察到，与RTN相比，RTNH在 $AP_{3D}$ 和 $AP_{BEV}$ 上的性能分别提高了 9.43% 和 1.96%。特别是，RTNH在 $AP_{3D}$ 方面显著超过了RTN，表明4DRT中可用的高度信息对于3D目标检测的重要性。此外，RTNH与RTN相比需要更少的GPU内存，因为它利用了前文提到的内存高效地稀疏卷积。

在这里插入图片描述
在表4中展示了RTNH和激光雷达检测网络模型PointPillars之间的检测性能比较。与normal条件相比，激光雷达网络在heavy snow条件下BEV和3D检测性能分别下降了 18.1% 和14.0%。相比之下，雷达RTNH模型检测性能几乎不受恶劣天气的影响，与normal条件相比，heavy snow条件下BEV和3D目标检测性能相似或更好。结果表明，基于4D雷达的感知模型在恶劣天气有着更好的鲁棒性。

在这里插入图片描述

Enhanced K-Radar: Optimal Density Reduction to Improve Detection Performance and Accessibility of 4D Radar Tensor-based Object Detection

这是K-Radar数据集作者第二篇论文，在上文中可以看到基于4DRT的3D检测模型在恶劣天气条件下的鲁棒性。然而由于数据量大，处理4D雷达数据仍然是一个挑战，需要大量的内存来计算和存储。 在以往的工作中，对4D雷达张量(4DRT)进行在线密度缩减，以减少数据大小，其中密度降低级别是任意选择的。然而，密度降低对检测性能和内存消耗的影响在很大程度上仍不清楚。在本文中，我们的目标是通过对密度降低级别进行广泛的超参数调整来解决这个问题。实验结果表明，将原始4DRT数据密度从0.01%增加到50%的过程中，当密度水平增加到5%以上时，只有内存消耗增加，而检测性能在峰值点附近振荡。 除了优化的密度超参数外，本文还引入了4D稀疏雷达张量(4DSRT)，这是一种用于离线降低4D雷达数据密度的新表示，导致原始数据大小显著降低。还提供了一个用于训练神经网络的优化开发工具包，与最先进的基于4DRT的神经网络相比，训练速度提高了 17.1 倍。

在这里插入图片描述
如图3所示，4D稀疏雷达张量 (4DSRT) 是4D雷达张量 (4DRT) 的稀疏表示，可用作基于4D雷达的神经网络的输入，例如RTNH。为了构建4DSRT，我们将4DRT从极坐标转换为笛卡尔坐标，然后进行池化操作，其中保留了功率测量最高的前N%元素。然后使用这些后池化值作为神经网络的输入。请注意，宇RTNH在训练过程每次迭代中执行坐标转换和池化操作不同，我们只需要为每个4DRT执行一次坐标转换和池化，并为每个后续迭代使用相应的4DSRT。

在这里插入图片描述
表I和表II分别显示了基于不同密度的RTNH网络的检测性能。在原始RTNH模型中，任意选择10%数据作为输入张量的。但是，正如在表格中看到的，在考虑内存消耗和AP性能时，它不是最佳密度级别。如表中所示，对于50%密度水平，内存消耗从 205MB增加到802MB。然而，增加密度水平并不能保证检测性能的提高。具体来说，总 $AP_{3D}$ 和总 $AP_{BEV}$ 与4DSRT的密度从0.01%到5%时成比例增加，密度水平在5%时， $AP_{3D}$ 达到峰值47.9%， $AP_{BEV}$ 峰值在密度为3%处。当密度超过5%时，检测性能在47%和57%附近振荡。这些可以作为汽车雷达工业中硬件级实现的指导方针。
在这里插入图片描述
图4直观的展示了不同密度对检测性能的影响。