SOTA！增强型K-Radar：4D毫米波雷达检测新方案！

最新推荐文章于 2025-08-22 11:23:07 发布

转载最新推荐文章于 2025-08-22 11:23:07 发布 · 879 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247544463&idx=2&sn=a6c872cf8b732d5563febc0dc66b8765&chksm=ceb80346f9cf8a503d25c6a69c8913aba9469251a989760d5be361dcad538aa83c63cba185db&scene=126&sessionid=0

文章标签：

#人工智能 #计算机视觉 #深度学习 #机器学习 #神经网络

作者 | Dong-Hee Paek等编辑 | 自动驾驶与AI

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心【多传感器融合】技术交流群

后台回复【多传感器融合综述】获取图像/激光雷达/毫米波雷达融合综述等干货资料！

最近的工作表明，基于4D雷达的3D物体检测在恶劣天气条件下具有卓越的鲁棒性。然而由于数据量大，需要大量的内存来进行计算和存储，因此处理4D雷达数据仍然是一个挑战。在以前的工作中，对4D雷达张量（4DRT）进行在线密度降低，以降低数据大小，其中密度降低级别是任意选择的。然而，密度降低对检测性能和内存消耗的影响在很大程度上仍然未知。本文的目标是通过在密度降低水平上进行广泛的超参数调谐来解决这个问题。实验结果表明，将密度水平从原始4DRT密度水平的0.01%增加到50%成比例地提高了检测性能，但代价是内存消耗。然而当密度水平增加到5%以上时，只有存储器消耗增加，而检测性能在峰值点以下振荡。除了优化的密度超参数外，本文还引入了4D稀疏雷达张量（4DSRT），这是一种离线密度降低的4D雷达数据的新表示，可以显著减少原始数据大小。还提供了一种用于训练神经网络的优化开发套件，与现有技术的基于4DRT的神经网络相比，该套件与4DSRT的使用一起，将训练速度提高了17.1倍。

简介

感知是自动驾驶系统的一个重要模块，因为感知模块获取的信息将用作后续规划和控制模块的输入。因此，迫切需要一种能够在具有挑战性的驾驶条件（例如恶劣天气条件）下运行的鲁棒感知模块。

近年来，许多研究将基于深度学习的感知模块引入各种自动驾驶任务，如车道检测和物体检测，具有显著的准确性。这些研究通常依赖RGB图像作为神经网络的输入，这主要是因为公众可以获得大量基于相机的数据集。此外，RGB图像具有相对简单的数据结构，具有低维度和相邻像素之间的高相关性，这使得神经网络能够有效地学习高维度表示。然而RGB相机容易受到低照明条件的影响，很容易被雨滴和雪花遮挡，并且缺乏对正确理解周围环境至关重要的深度信息。相比之下，激光雷达传感器使用红外信号以高达厘米级的分辨率测量周围环境，而不受照明条件的影响。然而波长约为=850nm~1550nm的红外信号无法通过雨滴或雪花，这导致在恶劣天气条件下的测量不可靠。

另一方面，与激光雷达传感器相比，雷达传感器利用的信号波长更长（=4mm）。这使得雷达信号能够穿过雨滴和雪花，即使在恶劣的天气条件下也能进行准确的测量。几项工作研究了雷达传感器（特别是调频连续波雷达）在恶劣天气条件下的稳健性。此外，FMCW雷达可以很容易地实现在硬件中，从而使FMCW雷达在汽车行业得到广泛应用。

如图1所示，FMCW雷达输出是雷达张量（RT），这是一个由所有轴上的非零功率测量填充的稠密张量。RT是通过将快速傅立叶变换（FFT）算法应用于硬件处理的FMCW信号而获得的。由于密度的原因，RT提供了关于环境的丰富信息，但代价是用于存储和计算的大量内存。

随着密集RT的可用性，许多研究提出了基于RT的目标检测网络，其检测性能与基于相机和激光雷达的目标检测网相似。特别是，K-Radar数据集提供了4D雷达张量（4DRT）的集合，该集合由沿多普勒、距离、方位角和仰角维度的功率测量组成。这与不提供高程信息的传统3D雷达张量（3DRT）形成对比。其中基于4DRT的有高度雷达张量网络（RTNH）在3D目标检测任务中显著优于无高度雷达张量网（RTN）。此外，基于4DRT的RTNH在晴朗天气条件下的道路环境中实现了与基于LiDAR点云（LPC）的神经网络PointPillars相似的3D目标检测结果，并且在雨夹雪和大雪等恶劣天气条件下显著优于基于LPC的网络。这些结果表明了4D雷达传感器在恶劣天气条件下对稳健感知的重要性。

虽然基于4DRT的网络的优势是显而易见的，但对4DRT数据进行实验仍然具有挑战性。这主要是因为4DRT数据的大小太大（即~12TB）。在先前的工作中，通过在训练期间在线执行密度减少来减少4DRT数据的大小，其中输出密度水平是任意选择的。然而，密度降低对检测性能和内存消耗的影响在很大程度上仍然未知。

本文的目标是通过在密度降低水平上进行广泛的超参数调谐来解决这个问题。正如预期的那样，实验结果表明，以消耗内存为代价，将密度水平从原始4DRT密度水平的0.01%增加到50%成比例地提高了检测性能。然而，有趣的是，当密度水平增加到5%以上时，只有存储器消耗增加，而检测性能在峰值点以下振荡。这种优化的密度降低水平可以作为汽车雷达行业在硬件级实现中设计预处理步骤的指南。

除了优化的密度降低超参数外，本文还引入了4D稀疏雷达张量（4SRT），这是4D雷达数据的一种新表示。与4DRT不同，作者离线执行极坐标到笛卡尔变换和密度降低，这显著降低了4DRT的原始数据大小。当4DSRT与优化的开发工具包一起用于训练神经网络时，与最初的基于4DRT的神经网络相比，训练速度提高了17.1倍。

总结来说，本文的主要贡献如下：

本文对4DRT的密度降低水平进行了广泛的超参数调整。作者观察到，将密度水平按比例提高到5%可以提高检测性能，但除此之外没有明显的好处。这一见解可以作为4D雷达行业的硬件指南；
本文提出了4D稀疏雷达张量（4SRT），这是4D雷达数据的一种新表示，可以减少内存大小。新的表示可以提高4D雷达数据的可访问性，特别是在资源有限的环境中；
作者为4DSRT提供了一个优化的devkit，当与4DSRT一起使用时，与基于4DRT的神经网络相比，可以将训练速度提高17.1倍。

SPARSE RADAR TENSOR

如图3所示，4D稀疏雷达张量（4DSRT）是4D雷达张量（4DRT）的稀疏表示，可以用作基于4D雷达的神经网络（如RTNH）的输入。为了构建4DRT，本文将4DRT从极坐标转换为笛卡尔坐标，然后执行池化操作，其中保留具有最高功率测量的前N%元素。然后，这些池化后的值被用作神经网络的输入。请注意，与K-Radar在训练过程的每一次迭代中执行坐标变换和池化操作不同，只需要对每个唯一的4DRT执行一次变换和池化，并在随后的每次迭代中重用相应的4SRT。

与4DRT相比，4DRT需要显著更低的内存和计算次数，因为4DRT中的元素数量仅为4DRT的N%。因此，利用4DSRT的优点是双重的。首先，4DSRT表示提高了K-Radar数据集的可访问性。由于4D雷达数据大小显著减少，我们可以在基于云的商业存储服务中轻松托管完整的数据集。与在本地服务器中托管数据集相比，这将带来更高的正常运行时间和下载带宽的优势，就像原始K-Radar的情况一样。因此，可以支持对数据集进行更高数量的不间断并行访问。

第二，使用4DSRT显著提高了训练速度。这是因为当使用4DRT进行训练时，大部分训练时间用于从磁盘中读取4DRT元素，以及用于使用需要大量计算的插值进行极坐标到笛卡尔变换的4DRT预处理。由于4DSRT中的元素数量明显较少，并且预处理只执行一次，因此观察到，与基于4DRT的网络相比，基于4DSRT的网络的训练速度可以提高17.1倍。

4DRT最重要的超参数之一是密度降低水平N。在先前的工作[11]中，对于4DRT的在线密度降低，N任意选择为10%。然而，作者观察到N对检测性能和内存消耗都有深远的影响，因此应该谨慎选择。

实验

实验设置

在实验中，网络是用PyTorch 1.11.0在配备RTX3090 GPU的Ubuntu机器上实现的。批量大小被设置为4，并且使用Adam对11个epoch的网络进行优化，学习率为0.001。

Comparison of RTNH with 4DSRT of various density

表I和表II分别显示了具有不同密度的基于4DSRT的RTNH网络的AP3D和APBEV。在K-Radar中，任意选择10%的密度作为输入张量的密度水平。然而，正如我们在表中所看到的，考虑到内存消耗和AP性能，这并不是最理想的密度级别。如表所示，内存消耗与4DSRT的密度成比例增长，从0.01%密度级别的205 MB增长到50%密度级别的802 MB。然而，增加密度水平并不能保证检测性能的提高。具体而言，总AP3D和总APBEV仅从0.01%密度水平到5%密度水平与4DSRT的密度成比例地增加，其中AP3D在5%密度水平下的峰值性能为47.9%，APBEV在3%密度水平下为61.9%。对于超过5%的密度水平，检测性能在AP3D=47%和APBEV=57%时振荡。这些结果直观地如图4所示，为4DSRT密度水平的最佳值提供了有价值的见解，可作为汽车雷达行业硬件水平实施的指南[23]。

Comparison of training speed whether utilizing 4DSRT

表III显示了基于4DSRT的网络和基于4DRT的网络之间的训练速度的比较。作者发现，在训练过程中使用4DSRT会导致8.04次迭代/s的训练速度，而基于4DRT的训练的训练速度为0.47次迭代/s。训练速度提高了17.1倍，这清楚地证明了4DSRT比4DRT的优势。

结论

本文提出了4D稀疏雷达张量（4DSRT），这是一种4D雷达数据的稀疏表示，与密集4D雷达张量（4DRT）相比，其数据大小明显更低。与之前任意选择密度降低水平的工作不同，本文进行了广泛的超参数调整，以找到4DSRT的最佳密度降低水平。结果已经发现，5%的密度降低将导致AP3D方面的最佳性能，并且密度水平的进一步增加不会导致更好的检测性能，这表明更密集的4DSRT不能保证更好的检测效果。此外还提供了一个高度优化的开发套件，当与4DSRT一起使用时，可以将训练速度提高17.1倍。

参考

[1] Enhanced K-Radar: Optimal Density Reduction to Improve Detection Performance and Accessibility of 4D Radar Tensor-based Object Detection

（一）视频课程来了！

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、多传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频，欢迎大家自取（扫码进入学习）

（扫码学习最新视频）

视频官网：www.zdjszx.com

（二）国内首个自动驾驶学习社区

近1000人的交流社区，和20+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测）、自动驾驶定位建图（SLAM、高精地图）、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！