毫米波雷达视觉融合3D目标检测论文综述(一)

本文总结了三篇关于毫米波雷达和视觉融合进行3D目标检测的论文,包括CenterFusion的雷达点云预处理、CenterNet结合的检测框生成,以及雷达图像关联方法;RADIANT通过深度信息更新和雷达点偏移量预测来改进深度估计;CRAFT则采用极坐标系下的融合策略和Transformer进行空间上下文融合。这些方法均涉及图像框与雷达点的关联,但高时间复杂度是当前挑战之一。

最近在研究基于雷达和视觉融合的3D目标,于是查找了相关文献,在这里把看过的论文做个总结,结果是val下的NDS和mAP。
毫米波雷达视觉融合3D目标检测论文综述(二)
毫米波雷达视觉融合3D目标检测论文综述(三

paper 发表地方 融合方法 代码链接 backbone NDS mAP
CenterFusion WACV2021 3D框与雷达点关联 pytorch代码 DAL34 0.453 0.332
RADIANT AAAI2023 3D框与雷达点关联 pytorch代码 R101 - 0.384
CRAFT AAAI2023 3D框与雷达点关联 - DLA34 0.517 0.411

接下来上述论文进行分析:
一、CenterFusion:Center-based Radar and Camera Fusion for 3D Object Detection
在这里插入图片描述
1、雷达点云的预处理:首先聚集三帧的雷达点(大约0.25s),并将所有的雷达点投影到车辆坐标系(egocentric coordinate system)记录每个雷达点的特征为( x , y , z , v x , v y x,y,z,v_x,v_y x,y,z,vx,vy)其中 x , y , z x,y,z x,y,z为位置信息, v x , v y v_x,v_y vx,vy x , y x,y x,y方向的径向速度。
2、利用CenterNet预先生成3D检测框:关于centernet可以看这篇博客:CenterNet.
3、CenterFusion流程:

  • 出发点:CenterNet的思想时通过利用所生成的热力图来预测物体的中心。其中他热力图的峰值代表这可能存在的物体,所以作者想通过将雷达点映射到物体上来增强热力图对应位置的特征。由于雷达没有高度信息,所以在投影到图像上的时候不准确,所以如何将雷达点准确的图像中物体关联是一个棘手的问题。作者提出了一个基于视锥体的雷达图像关联方法。
  • 具体流程:
    3.1、 利用CenterNet生成一个精确的2D包围框以及一个初步的3D包围框。其中特征提取使用的时DLA,之后利用回归头来会馆相关属性(2d框的中心点的偏移,长宽,3d框的长宽高、深度、偏角)。
    3.2、利用所提出的视锥体方法来进行特征和雷达点关联,视锥体关联主要有两部,给一个要关联的2d框以及对应的3d检测框的深度,首先判断投影到图像上的点是不是在2d框内,留下所有的2d框内的点;其次根据预测的深度,在前方和后方生成要给深度区间,雷达点的深度如果在该区间内,那么就保留,同时满足上述两个条件的雷达点表示和这个物体时关联的,最后如果有多个雷达点都满足的话利用最近的雷达点最为该2d框关联的雷达点,对一幅图像内所有的2d框进行上述操作来获取对应的关联雷达点。训练的时候3d框和2d框使用的都是groundtruth,测试时候使用的是预测值。
    3.3、为了更有效地对特显特征进行增强,作者设计了一个3D pillars来扩展雷达点。同时将深度、x、y方向的速度3个特征作为雷达的特征。
    3.4、将获取到的雷达特征和图像特征进行拼接来重新估计更准确的深度、速度、旋转和物体所属的属性。

关于CenterFusion的代码分析可以看一下三个链接:

二、RADIANT: Radar-Image Association Network for 3D Object Detection
在这里插入图片描述
1、出发点:单目相机无法预测正确的深度信息,作者想通过雷达来更新预测的深度信息。为了实现这一目的需要解决两个问题:

  • 雷达回波可能处于物体的表面,内部或者其他地方导致深度信息相对于物体中心有一定的偏移

  • 雷达回波有可能处于GT框的外边,但是有可能该雷达点与GT框表示的是同一个物体

2、解决方法:通过训练一个雷达相关的网络来预测每个雷达点相对于GT框中心的偏移量(深度偏移量、雷达点偏移量)。由于作者直接把雷达点当作所有的候选框,在这里预测这些偏执,之后可以直接对雷达点的相关属性进行纠正。假如预测的偏移量是正确的话那么就可以通过闻值的方法来对雷达点和物体进行关联。
3、具体流程:

  • 如上图所示,网络分为两个分支,一个为图像分支,作者在这里使用的是FCOS3D没有对网络进行改变,另一个雷达分支,也是将雷达点投影到图像平面,之后去雷达特征作为投影到图像上的特征值,由于雷达点的稀疏性,在进行特征提取的时候使用的是ReSNet-18。之后在特征提取结束后和图像特征进行拼接从而预测3D框需要的值。由于雷达分支特征的稀疏性,作者在雷达头进行预测的时候只是预测了类分数以及相对于雷达点的相对位置,即深度偏移和位置偏移。图像分支则预测了所有的和3d框相关的值。之后将者预测的结果输入到深度融合模型中来融合二者预测出来的深度值。
    深度融合模型:主要包含两步:雷达相机关联,深度信息融合
    雷达相机关联: 首先该模块中图像分支预测要用的结果包括投影中心( u ^ i c , v ^ i c \widehat{u}_i^c,\widehat{v}_i^c u ic,v ic),预测的深度 z ^ i c \widehat{z}_i^c z ic,类别 y ^ i c \widehat{y}_i^c y ic,以及检测的分数 σ ^ i c \widehat{\sigma}_i^c σ ic,雷达分支结果为:相对于雷达投影点的偏移量( ∇ u ^ j r , ∇ v ^ j r \nabla\widehat{u}_j^r,\nabla\widehat{v}_j^r u jr,v jr),雷达点深度和框中心对应深度的深度偏差 ∇ z ^ j r \nabla\widehat{z}_j^r z jr,类别 y ^ j r \widehat{y}_j^r y jr
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值