Object as Query: Lifting any 2D Object Detector to 3D Detection 感谢大佬~
论文链接:https://arxiv.org/pdf/2301.02364.pdf
作者单位:北京航空航天大学 图森
多视图下的3D目标检测在过去几年引起了广泛的注意力。现有的方法主要是从多视图图像中建立三维表示,采用密集检测头进行目标检测,或者利用分布在三维空间中的目标查询对目标进行定位。本文设计了一种基于多视图的二维目标引导的三维目标检测器(MV2D),它可以将任意二维目标检测器提升到多视图3D目标检测。由于2D检测可以为目标的存在提供有价值的先验,因此MV2D利用2D检测器生成基于丰富图像语义的目标查询。这些动态生成的查询帮助MV2D回忆视野中的目标,并显示出强大的定位3D目标的能力。对于生成的查询,本文设计了一个稀疏的交叉注意力模块,使其集中于特定目标的特征上,从而抑制了噪声的干扰。对nuScenes数据集的验证结果表明,动态目标查询和稀疏特征聚合能够提高三维检测能力。MV2D在现有方法中也表现出最先进的性能。本文希望MV2D可以作为未来研究的一个新的基线。
主要贡献:
本文提出了一个框架MV2D,它可以提升任何2D目标检测器到多视图3D目标检测。
本文证明了基于二维检测的多视图图像中某些相关区域的动态目标查询和聚合可以提高三维检测性能。
本文在标准的nuScenes数据集上评估MV2D,它实现了最先进的性能。
网络设计:
给定输入的多视图图像,本文首先从2D检测器获取2D检测结果,然后为每个2D边界框生成一个动态目标查询。与聚合多视图输入中所有区域的特征不同,一个目标查询必须集中于一个特定的目标。为此,本文提出了一种基于二维检测结果和camera配置的高效相关特征选择方法。然后,动态生成的目标查询,连同它们的3D位置嵌入的相关特征,被输入到具有稀疏交叉注意力层的transformer解码器中。最后,更新的目标查询预测最终的3D边界框。
图1。MV2D的动机。带有固定目标查询的3D检测器(固定查询意味着查询对于不同的输入是不变的)可能会定位错误或忽略某些目标(b),但是2D检测器可以成功地检测到这些目标(c)。如果基于2D检测器生成目标查询,3D检测器可以生成更精确的位置(d)。
图2。提出的MV2D的框架。给定输入的多视图图像,图像特征通过特征提取器进行特征图。同时,利用二维检测器得到每个视点的二维检测结果。动态查询生成器以目标特征、2D检测框和摄像机参数为输入,初始化一组目标查询。将ROI-ALIGN应用于目标区域,得到固定长度的目标特征,用于查询生成器。所有落在目标区域的特征都用3D PE (3D position embed)进行装饰(decorated),然后将目标查询和目标特征输入到解码器,以更新查询特征。与普通transformer解码器相比,MV2D中的解码器采用了稀疏交叉注意力,其中每个目标查询仅与其相关特征进行交互。最后,将预测头应用于更新后的目标查询,生成三维检测结果。
图3。动态目标查询生成器。
图4。相关区域选择的可视化。每个查询框从三维网格生成一个离散的摄像机frustum。然后将摄像机frustum投影到另一个视图的像素坐标上,以计算最小边界框。然后根据与最小边界框的重叠选择相应的框。
实验结果:
引用:
Wang, Z., Huang, Z., Fu, J., Wang, N., & Liu, S. (2023). Object as Query: Lifting any 2D Object Detector to 3D Detection. ArXiv. /abs/2301.02364