超全 | 基于纯视觉Multi-Camera的3D感知方法汇总！

原创

已于 2022-09-18 10:08:26 修改 · 3k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #计算机视觉 #机器学习 #人工智能 #深度学习

于 2022-09-13 07:30:32 首次发布

本文综述了近年来基于多摄像头的纯视觉BEV（Bird's-Eye-View）3D目标检测方法，包括DETR3D、BEVDet、ImVoxelNet、PETR、BEVFormer、BEVDepth、BEVDet4D和BEVerse等。这些方法通过BEV表示改进了3D检测性能，减少了对深度估计的依赖，并实现了多传感器融合。例如，DETR3D利用3D对象查询直接在3D空间中进行预测，BEVDet通过模块化设计实现了性能和效率的平衡，而BEVDepth则提出了深度校正子网络以提高深度估计的准确性。BEVerse则是一个统一的多任务感知和预测框架，能在BEV中进行联合推理。这些进展不断推动着视觉3D感知技术的发展。

近两年，基于纯视觉BEV方案的3D目标检测备受关注，all in one方式，确实能将基于camera的3D检测算法性能提升一大截，甚至直逼激光雷达方案，这次整理了领域中一些备受关注的multi-camera bev纯视觉感知方案，包括DETR3D、BEVDet、ImVoxelNet、PETR、BEVFormer、BEVDepth、BEVDet4D、BEVerse等！

1.DETR3D（CoRL 2021）

DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

在自动驾驶的环视相机图像中做3D目标检测是一个棘手的问题，比如怎么去从单目相机2D的信息中预测3D的物体、物体形状大小随离相机远近而变化、怎么融合各个不同相机之间的信息、怎么去处理被相邻相机截断的物体等等。

将Perspective View转化为BEV表征是一个很好的解决方案，主要体现在以下几个方面：

BEV是一个统一完整的全局场景的表示，物体的大小和朝向都能直接得到表达；
BEV的形式更容易去做时序多帧融合和多传感器融合；
BEV更有利于目标跟踪、轨迹预测等下游任务。

DETR3D是21年非常经典的多视角图像3D目标检测工作，论文介绍了一种多camera三维目标检测框架。与直接从单目图像估计3D box或使用深度预测网络从2D信息生成3D目标检测输入数据的现有工作不同，论文的方法直接在3D空间中操纵预测。DETR3D从多个camera图像中提取2D特征，然后使用稀疏的3D对象查询集索引到这些2D特征，使用相机变换矩阵将3D位置链接到多视图图像。最后，模型对每个对象查询进行边界框预测，使用一个set-to-set的损失来计算GT和预测之间的差异。这种自顶向下的方法优于自底向上的方法，其中对象边界框预测遵循逐个像素深度估计，因为它不受深度预测模型引入的复合误差的影响。此外，DETR3D不需要后处理，如非最大值抑制，大大提高了推理速度，在nuScenes基准上实现了SOTA！

如上图所示，object queries是类似DETR那样，即先随机生成 M个bounding box，类似先生成一堆anchor box，只不过这里的box是会被最后的loss梯度回传的。（蓝线）然后通过一个子网络，来对query预测一个三维空间中的参考点 cℓi （实际上就是3D bbox的中心）。通过角标我们可以看出，这个操作是layer-wise、query-wise的。绿线利用相机参数，将这个3D参考点反投影回图像中，找到其在原始图像中对应的位置。黄线从图像中的位置出发，找到其在每个layer中对应的特征映射中的部分。红线利用多头注意力机制，将找出的特征映射部分对queries进行refine。这种refine过程是逐层进行的，理论上，更靠后的layer应该会吸纳更多的特征信息。（黑色虚线框之后）得到新的queries之后，再通过两个子网络分别预测bounding box和类别，然后就进入loss部分，性能提升如下图所示：

2.BEVDet（2021）

High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View

自主驾驶感知周围环境进行决策，这是视觉感知中最复杂的场景之一。在解决2D目标检测任务方面的成功创新激励领域寻求一种优雅、可行和可扩展的范式，从根本上推动该领域的性能边界。为此，论文贡献了BEVDet范式，BEVDet在鸟瞰图（BEV）中执行3D对象检测，其中定义了大多数目标值，并且可以方便地执行路线规划。论文仅仅重用现有的模块来构建其框架，但通过构建独占数据增强策略和升级非最大抑制策略