【深入理解BEVFormer】BEVFormer

本文探讨了在自动驾驶中,BEV(BirdsEyeView)视角的特征融合方法,包括早期的后融合与当前流行的特征级融合。BEVFormer利用DeformableAttention处理时空对齐问题,通过自注意力机制和可变形注意力实现高效计算,尤其是在6个摄像头视角的快速Backbone选择上。文章强调了时间注意力和空间注意力的重要性,以及3x3卷积在提高预测精度的作用。运行要求在Linux环境下且显存需12GB以上。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

任务场景

在这里插入图片描述
多模态融合和多传感器融合

在这里插入图片描述
BEV:鸟瞰图

这个特征空间与每个视角都相关

在这里插入图片描述
早期是用后融合,目前比较流行的是特征级融合

在这里插入图片描述
在这里插入图片描述
自身运动补偿:如果按照像素点进行特征对齐,需要指定偏移量 x y两个方向
特征空间是自己定义的,常见的是200x200,根据自己的硬件成本去考虑,每个网格点是一个特征向量,

在这里插入图片描述
同一个特征空间同时做多个下游任务,每一个相机视图又有多个特征,
分辨率太高,导致计算成本过高,难以训练

BEVFormer

在这里插入图片描述

时间和空间上都要做对齐,
DeformableAttention是目前的主流

输入

在这里插入图片描述
输入是一个序列
batch_size = 16
queue=3 t-2 t-1 t 不仅要考虑当前时刻,还要考虑前两个时刻,t-2 t-1
cam=6 6个摄像头
C=RGB 3
H W 高 宽

在这里插入图片描述

只用6个视角的摄像头
Backbone 是什么都可以 最好要速度快

在这里插入图片描述
在这里插入图片描述实际用自注意力机制做的,时间注意力和空间注意力

可变形注意力机制

在这里插入图片描述
当前的点作为query,只跟周围的4个点作为key,去计算相似度分数。基于当前点的偏移量
这4个点的贡献不相同,

在这里插入图片描述

空间注意力机制
映射到特征图,不一定是准确的那个点,得到的平面是一个高度的,一个点对应4个query,每个query对应一个不同的高度。

先做时间注意力,后做空间注意力

在这里插入图片描述

BEVForm++

在这里插入图片描述在这里插入图片描述
把1x1的卷积核换成3x3的,感受野更大,可以考虑周边的情况,让偏移量的预测更准确

在这里插入图片描述

先做时间,如果不做时间注意力,后面就不准确,可以把前面的query作为初始化。

windows跑不了,必须是Linux环境,显存至少12G以上,

### BEVFORMER 训练教程及相关资源 BEVFORMER 是一种基于鸟瞰图(Bird's Eye View, BEV)的多视角感知模型,在自动驾驶领域有广泛应用。对于希望深入了解并训练 BEVFORMER 的研究者而言,获取高质量的学习材料至关重要。 #### 官方文档与论文 官方 GitHub 仓库提供了详细的安装指南以及基础实验设置说明[^5]。建议从阅读原始论文《BEVFormer: Spatiotemporal Transformer for Camera-based Bird’s-eye-view Perception》入手,这有助于理解算法设计背后的理论依据及其应用场景[^6]。 #### 数据集准备 为了有效训练 BEVFORMER 模型,需要准备好合适的数据集。常用数据集包括 nuScenes 和 Waymo Open Dataset 。这些公开可用的数据集中包含了丰富的传感器信息,如摄像头图像、激光雷达点云等,非常适合用来验证和改进模型性能[^7]。 #### 环境搭建 根据项目 README 文件中的指导完成依赖环境配置,通常涉及 PyTorch 版本的选择以及其他必要的 Python 库安装。确保所有组件兼容且能够正常工作是成功运行代码的前提条件之一[^8]。 ```bash conda create -n bevformer python=3.8 conda activate bevformer pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113 pip install mmcv-full==1.4.0 -f https://download.openmmlab.com/mmcv/dist/cu113/torch1.10/index.html git clone https://github.com/Megvii-BaseDetection/BEVFormer.git cd BEVFormer pip install -r requirements/build.txt pip install -e . ``` #### 开始训练 一旦完成了上述准备工作,则可以根据个人需求调整超参数设定,并启动训练过程。具体命令如下所示: ```bash python tools/train.py configs/bevformer/bevformer_base.py --work-dir work_dirs/bevformer_base/ ``` 通过指定不同的配置文件路径来切换至其他变体版本或特定任务场景下的优化策略[^9]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

量子-Alex

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值