超全 | 基于纯视觉Multi-Camera的3D感知方法汇总!

本文综述了近年来基于多摄像头的纯视觉BEV(Bird's-Eye-View)3D目标检测方法,包括DETR3D、BEVDet、ImVoxelNet、PETR、BEVFormer、BEVDepth、BEVDet4D和BEVerse等。这些方法通过BEV表示改进了3D检测性能,减少了对深度估计的依赖,并实现了多传感器融合。例如,DETR3D利用3D对象查询直接在3D空间中进行预测,BEVDet通过模块化设计实现了性能和效率的平衡,而BEVDepth则提出了深度校正子网络以提高深度估计的准确性。BEVerse则是一个统一的多任务感知和预测框架,能在BEV中进行联合推理。这些进展不断推动着视觉3D感知技术的发展。

近两年,基于纯视觉BEV方案的3D目标检测备受关注,all in one方式,确实能将基于camera的3D检测算法性能提升一大截,甚至直逼激光雷达方案,这次整理了领域中一些备受关注的multi-camera bev纯视觉感知方案,包括DETR3D、BEVDet、ImVoxelNet、PETR、BEVFormer、BEVDepth、BEVDet4D、BEVerse等!

1.DETR3D(CoRL 2021)

DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

在自动驾驶的环视相机图像中做3D目标检测是一个棘手的问题,比如怎么去从单目相机2D的信息中预测3D的物体、物体形状大小随离相机远近而变化、怎么融合各个不同相机之间的信息、怎么去处理被相邻相机截断的物体等等。

将Perspective View转化为BEV表征是一个很好的解决方案,主要体现在以下几个方面:

  1. BEV是一个统一完整的全局场景的表示,物体的大小和朝向都能直接得到表达;

  2. BEV的形式更容易去做时序多帧融合和多传感器融合;

  3. BEV更有利于目标跟踪、轨迹预测等下游任务。

DETR3D是21年非常经典的多视角图像3D目标检测工作,论文介绍了一种多camera三维目标检测框架。与直接从单目图像估计3D box或使用深度预测网络从2D信息生成3D目标检测输入数据的现有工作不同,论文的方法直接在3D空间中操纵预测。DETR3D从多个camera图像中提取2D特征,然后使用稀疏的3D对象查询集索引到这些2D特征,使用相机变换矩阵将3D位置链接到多视图图像。最后,模型对每个对象查询进行边界框预测,使用一个set-to-set的损失来计算GT和预测之间的差异。这种自顶向下的方法优于自底向上的方法,其中对象边界框预测遵循逐个像素深度估计,因为它不受深度预测模型引入的复合误差的影响。此外,DETR3D不需要后处理,如非最大值抑制,大大提高了推理速度,在nuScenes基准上实现了SOTA!

29aa358507fffc498e7f11773a3135b2.png

如上图所示,object queries是类似DETR那样,即先随机生成 M个bounding box,类似先生成一堆anchor box,只不过这里的box是会被最后的loss梯度回传的。(蓝线)然后通过一个子网络,来对query预测一个三维空间中的参考点 cℓi (实际上就是3D bbox的中心)。通过角标我们可以看出,这个操作是layer-wise、query-wise的。绿线利用相机参数,将这个3D参考点反投影回图像中,找到其在原始图像中对应的位置。黄线从图像中的位置出发,找到其在每个layer中对应的特征映射中的部分。红线利用多头注意力机制,将找出的特征映射部分对queries进行refine。这种refine过程是逐层进行的,理论上,更靠后的layer应该会吸纳更多的特征信息。(黑色虚线框之后)得到新的queries之后,再通过两个子网络分别预测bounding box和类别,然后就进入loss部分,性能提升如下图所示:

0df8e24b39995c7e7e428af573355b83.png

2.BEVDet(2021)

High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View

自主驾驶感知周围环境进行决策,这是视觉感知中最复杂的场景之一。在解决2D目标检测任务方面的成功创新激励领域寻求一种优雅、可行和可扩展的范式,从根本上推动该领域的性能边界。为此,论文贡献了BEVDet范式,BEVDet在鸟瞰图(BEV)中执行3D对象检测,其中定义了大多数目标值,并且可以方便地执行路线规划。论文仅仅重用现有的模块来构建其框架,但通过构建独占数据增强策略和升级非最大抑制策略

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值