点击下方卡片,关注“自动驾驶之心”公众号
ADAS巨卷干货,即可获取
点击进入→自动驾驶之心【BEV感知】技术交流群
1论文思路:
目前多摄像机三维目标检测的发展趋势是采用统一鸟瞰图(BEV)表示。然而,直接将从图像平面图中提取的特征转换为BEV必然会导致特征失真,尤其是在感兴趣的目标周围,使目标模糊到背景中。为此,本文提出OA-BEV网络,该网络可以插入到基于BEV的三维目标检测框架中,通过结合目标感知伪3D特征和深度特征来显现目标(bring out the objects)。这些特征包含关于目标的位置和3D结构的信息。首先,本文明确引导网络从每个三维目标的中心以目标级别(object-level)监督的方式学习深度分布。然后,通过二维目标检测器选择前景像素,并将其投影到三维空间进行伪体素特征编码。最后,将目标感知的深度特征和伪体素特征结合到具有变形注意力机制(with a deformable attention mechanism)的BEV representation中。本文在nuScenes数据集上进行了大量的实验,以验证本文的提出的OA-BEV的优点。在平均精度和Nuscenes检测得分方面,本文的方法在基于BEV的基线上取得了一致的改进。
2主要贡献:
本文提出OA-BEV,这是一个插件模块,它为多摄像机三维目标检测的BEV表示带来了关于它们三维空间属性的更好的目标感知,从而补偿了BEV视图转换中的特征变形和三维结构缺失。
本文通过重用3D目标检测标签来生成目标感知特征,而不引入额外的深度标注。本文还表明,这种轻量级操作可以带来相当大的改进。
本文在nuScenes数据集上用两个有代表性的基线,即Bevformer和Bevdet,进行多个主干的实验。在插入OA-BEV后,两种方法的性能改进都验证了本文方法的实用性。
3网络设计:

图2。OA-BEV框架概述。(A)将多摄像机图像输入骨干网,提取image-plane二维特征。(b)在目标感知特征提取部分,在目标级监督下,将图像平面特征输入二维检测头和深度头。在深度特征上进行Softmax后,将深度图和二维检测包围盒结合到以目标为中心的伪三维特征生成器中,投影出前景伪激光雷达点云,并通过三维体素网络将其编码为体素特征。(c)在BEV主分支中,将图像特征输入到视图变换模块,以获得BEV特征,并通过目标感知特征融合模块将其与深度特征和体素特征融合。更新的BEV特征被进一步馈入BEV编码器和BEV检测头。右下部分展示了目标感知特征融合模块的细节,该模块主要由一个体素可变形自注意力和深度可变形交叉注意力组成。
使用OA-BEV进行3D检测:图2描述了本文的OABEV管道。它可以作为一个插件,将目标感知功能--即目标级深度估计和前景伪3D功能--纳入任何基于BEV的多摄像机3D检测管道。在插入OA-BEV后,基于目标感知的BEV检测通常由图像编码器和两个分支组成:(1)目标感知的特征提取分支和(2)BEV主分支。前者包括三个模块:(i)二维检测头,(ii)深度头,(iii)以目标为中心的伪三维特征生成器。后者由四个模块组成:(i)视图变换模块,(ii)目标感知特征融合模块,(iii)BEV编码模块,(iv)BEV检测头。有时,BEV编码模块是不需要的。

4实验结果:




