使用Transformer融合时空信息的自动驾驶感知框架

最新推荐文章于 2025-10-14 10:57:24 发布

原创

最新推荐文章于 2025-10-14 10:57:24 发布 · 2.5k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #自动驾驶 #人工智能

BEVFormer是一种基于Transformer的自动驾驶感知框架，通过时空信息融合优化鸟瞰图视角下的物体检测。在nuScenes数据集上表现出色，BEV特征支持多种感知任务，包括3D目标检测和地图语义分割。BEVQueries通过Spatial Cross-Attention和Temporal Self-Attention融合多视角信息，提高了检测性能。

在这里插入图片描述

BEVFormer很荣幸参与到最近这波BEV感知的研究浪潮中，我们从开源社区中受益良多，也希望尽我们所能为社区做出我们自己的贡献，希望未来与社区一道共同构建更加安全可靠的自动驾驶感知系统。

引言

TL; DR: 本文提出了一套基于Transformer和时序模型在鸟瞰图视角下优化特征的环视物体检测方案，即BEVFormer。nuScenes数据集上以NDS指标（类似mAP），在camera only赛道中大幅领先之前方法。本文旨在介绍我们在设计BEVFormer过程中考虑的思路、比较的多种方法、以及下一步可能的研究方向。

PS:未经授权，禁止转载

介绍

最近，基于多视角摄像头的3D目标检测在鸟瞰图下的感知（Bird’s-eye-view Perception, BEV Perception) 吸引了越来越多的注意力。一方面，将不同视角在BEV下统一与表征是很自然的描述，方便后续规划控制模块任务；另一方面，BEV下的物体没有图像视角下的尺度(scale)和遮挡(occlusion)问题。如何优雅的得到一组BEV下的特征描述，是提高检测性能的关键。

nuScenes自动驾驶数据集因其数据的质量、规模与难度都比之前数据集有大幅提升，而获得了很多研究者的关注。在nuScenes 3D object detection task上，目前前6名方案都是2022年3月进行的提交。我们提出的BEVFormer取得了48.1 mAP和56.9 NDS，两个指标均超越现有方法3个点以上，暂列第一。“低碳版”BEVFormer-pure仅使用ResNet-101与单尺度测试，取得了优于第二名（Swin-B、test-time aug）的mAP以及相同的NDS。具体榜单如下。
在这里插入图片描述
注：Table：BEVFormer 在nuScence榜单上的排名（截至2022.3.31）

本项目最早启发于2021年7月特斯拉的技术分享会，为此我们还做了几期细致的分享（链接TODO）。特斯拉展示了基于Transformer使用纯视觉输入进行自动驾驶感知任务的惊艳效果，但是它并没有展示其方法的具体实现和量化指标。与此同时，学术界也有许多相关工作旨在利用纯视觉输入来完成自动驾驶感知任务，例如3D目标检测或者构建语义地图。我们提出的BEVFormer的主要贡献在于使用Transformer在BEV空间下进行时空信息融合。

BEVFormer方案

在这里插入图片描述
注：BEVFormer动机：使用可学习的BEV query通过attention与spatial space 和temporal space交互

动机

在介绍BEVFormer的具体方案之前，先要回答两个问题。

1: 为什么要用BEV?

事实上对于基于纯视觉的3D检测方法，基于BEV去做检测并不是主流做法。在nuScenes 榜单上很多效果很好的方法（例如

最低0.47元/天解锁文章