【CVPR2024】北大&长安联合提出相机-毫米波雷达多模态感知算法RCBEVDet问鼎SOTA！

FelixTea

已于 2024-09-28 21:28:08 修改

阅读量1.7k

点赞数 16

分类专栏：自动驾驶感知算法专栏文章标签：人工智能计算机视觉自动驾驶 3d 算法

于 2024-09-28 21:23:59 首次发布

本文链接：https://blog.youkuaiyun.com/FelixTea/article/details/142621613

版权

Dual-stream radar backbone模块

RCS-aware BEV Encoder

Radar BEV Encoder

核心创新点二：Cross-Attention Multi-layer Fusion Module

Channel and Spatial Fusion

四、实验结果部分

整体实验对比

消融实验对比

一、论文导读

在本文中，作者提出了相机和毫米波雷达多模态融合的3D目标检测算法RCBEVDet，在nuScenes和VoD数据集的3D目标检测任务上实现了SOTA的表现性能，超过了现有的camera-only以及radar-camera的3D目标检测算法，RCBEVDet和其他算法模型的速度和精度对比如下

论文链接：https://arxiv.org/pdf/2403.16440
官方仓库链接：https://github.com/VDIGPKU/RCBEVDet

二、论文研究背景

在整个自动驾驶系统当中，感知是非常重要的一个组成部分。感知模块通过将单一模态或者多个模态的输入信息进行处理，从而实现对于当前3D环境中动态和静态障碍物的检测。

一般而言，激光雷达传感器可以提供目标丰富的几何结构信息，并且实现更优的感知效果。但是高质量的激光雷达的造价比较高昂。相机传感器和毫米波雷达传感器为智能驾驶方案提供了更经济的选择。与激光雷达传感器相比，相机传感器可以捕捉颜色和纹理等复杂细节，提供丰富的语义信息，同时毫米波雷达传感器可以更好的克服各种天气状况和光照条件的影响，并具有更强的距离和速度的检测能力。

因此，本文的核心思路是设计一种可以结合相机以及毫米波雷达各自传感器信息优势的3D目标检测算法，但目前的这类算法面临着如下相关挑战

当前的相机和毫米波雷达融合感知算法大多数遵循BEVFusion算法模型的思路，将多视图图像特征和雷达特征投射到BEV空间，并且主要采用特征拼接、相加求和或者借鉴注意力机制作为多模态特征融合模块。然而，这些融合方法没有考虑到两个模态之间的空间特征不对齐问题
当前的相机和毫米波融合算法仍然采用为激光雷达传感器设计的编码器来处理毫米波雷达数据。由于毫米波雷达和激光雷达传感器之间的天然差异，用于毫米波雷达数据的激光雷达编码器不是最优的

综上，在考虑到了相机和毫米波雷达互补的优势以及目前该类算法模型存在的相关问题，本文提出了RCBEVDet。同时大量的实验结果表明，在nuScenes和VoD数据集上相比于camera-only以及radar-camera的3D目标检测算法，RCBEVDet实现了最优的检测效果。该网络模型的具体结构以及技术细节在下面进行重点讲解。

三、网络模型结构&技术细节梳理

下图展示了RCBEVDet算法模型的整体网络结构

通过整体网络框架图可以看到，RCBEVDet将输入的环视图像喂入到图像主干网络提取特征，然后利用View Transformation模块以及图像BEV Encoder模块得到图像BEV特征。同时，对齐的雷达点云通过设计的RadarBEVNet编码得到雷达BEV特征。接着利用设计的Cross-attention Multi-layer Fusion模块实现图像BEV特征和雷达BEV特征的融合，最后接3D检测头输出最终的感知结果。

接下来，我们就详细介绍一下网络框架图当中的RadarBEVNet以及Cross-attention Multi-layer Fusion两个创新点模块