概要
BEVDepth通过利用显式深度监督来解决这一问题,并引入了相机感知深度估计模块以提高深度预测能力。此外,还设计了一个新颖的深度细化模块,以抵消由不精确的特征反投影带来的副作用。在定制的高效体素池化和多帧机制的辅助下,BEVDepth在具有挑战性的nuScenes测试集上达到了60.9%的NDS,这是首次相机模型的NDS得分达到60%,同时保持了高效率。
整体架构流程
BEVDepth的主要方法围绕提升多视图3D目标检测中深度估计的准确性展开。过去方法中深度估计的不足,即深度预测模块仅通过最终检测损失间接监督,导致深度质量不满足精确3D目标检测的要求。为此,BEVDepth引入了显式深度监督,通过从点云数据中获取的地面真实深度来指导深度学习,从而提高了深度预测的准确性。
BEVDepth还提出了一个相机感知深度估计模块,该模块能够根据相机的内在和外在参数来预测深度,增强了模型对不同相机设置的适应性。这一模块通过将相机参数编码到深度学习模块中,使得检测器能够更好地处理多视角相机系统中的深度预测问题。
为了进一步改善深度质量,BEVDepth设计了深度细化模块。这个模块通过在特征反投影后对3D特征进行额外的处理,以纠正由于初始深度估计不精确而导致的特征位置偏差。深度细化模块通过在深度轴上聚合特征,增强了特征的深度一致性,并在深度预测不准确时理论上能够将特征细化到正确的位置。
BEVDepth结合了定制的高效体素池化和多帧机制,这不仅提高了模型的效率,还进一步提升了3D检测的性能。高效体素池化通过利用GPU的并行性,显著减少了训练时间,而多帧机制则通过融合多帧信息来提高目标检测的准确性和速度。