概要
BEVFormer是一个用于自动驾驶系统的多相机输入的鸟瞰图(BEV)特征学习框架。它通过时空变换器有效地聚合空间和时间信息,支持3D目标检测和地图分割等多种任务。
整体架构流程
BEVFormer模型架构的核心是从多相机图像中学习鸟瞰图(BEV)表示,以支持自动驾驶系统中的多种感知任务。该架构由若干个编码层组成,每个编码层都包含三个关键设计:BEV查询、空间交叉注意力和时间自注意力。
-
BEV查询是一组预定义的网格状可学习参数,它们负责从多相机视图中通过注意力机制检索空间特征。这些查询以网格形式排列,每个网格点对应于BEV平面上的一个特定区域,允许模型灵活地从不同相机视图中聚合信息。
-
空间交叉注意力模块是BEVFormer的另一个关键组成部分,它允许每个BEV查询仅与其感兴趣区域的图像特征进行交互。这一设计基于可变形注意力机制,通过预测参考点及其偏移量来有效地从多相机特征中采样信息,显著提高了计算效率。
-
时间自注意力模块则负责处理时间信息,通过递归地融合历史BEV特征来捕捉环境的动态变化。这一模块通过注意力机制对历史BEV特征进行加权求和,以生成当前时间戳的BEV特征,从而使得模型能够利用过去的信息来改善当前的感知任务。
-
在推理阶段,模型以视频序列的每个帧为输入,利用先前时间戳的BEV特征来辅助生成当前时间戳的BEV特征。这一在线推理策略不仅时间效率高,而且与实际应用场景相符。最终&#