【深入理解BEVFormer】BEVFormer

最新推荐文章于 2025-04-02 16:12:37 发布

量子-Alex

最新推荐文章于 2025-04-02 16:12:37 发布

阅读量745

点赞数 4

分类专栏： CV知识学习和论文阅读文章标签：计算机视觉人工智能 transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_44184852/article/details/136129123

版权

CV知识学习和论文阅读专栏收录该内容

41 篇文章

订阅专栏

本文探讨了在自动驾驶中，BEV（BirdsEyeView）视角的特征融合方法，包括早期的后融合与当前流行的特征级融合。BEVFormer利用DeformableAttention处理时空对齐问题，通过自注意力机制和可变形注意力实现高效计算，尤其是在6个摄像头视角的快速Backbone选择上。文章强调了时间注意力和空间注意力的重要性，以及3x3卷积在提高预测精度的作用。运行要求在Linux环境下且显存需12GB以上。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

任务场景

在这里插入图片描述
多模态融合和多传感器融合

在这里插入图片描述
BEV：鸟瞰图

这个特征空间与每个视角都相关

在这里插入图片描述
早期是用后融合，目前比较流行的是特征级融合

在这里插入图片描述

自身运动补偿：如果按照像素点进行特征对齐，需要指定偏移量 x y两个方向
特征空间是自己定义的，常见的是200x200，根据自己的硬件成本去考虑，每个网格点是一个特征向量，

在这里插入图片描述
同一个特征空间同时做多个下游任务，每一个相机视图又有多个特征，
分辨率太高，导致计算成本过高，难以训练

BEVFormer

在这里插入图片描述

时间和空间上都要做对齐，
DeformableAttention是目前的主流

输入

在这里插入图片描述
输入是一个序列
batch_size = 16
queue=3 t-2 t-1 t 不仅要考虑当前时刻，还要考虑前两个时刻,t-2 t-1
cam=6 6个摄像头
C=RGB 3
H W 高宽

在这里插入图片描述

只用6个视角的摄像头
Backbone 是什么都可以最好要速度快

在这里插入图片描述
实际用自注意力机制做的，时间注意力和空间注意力

可变形注意力机制

在这里插入图片描述
当前的点作为query，只跟周围的4个点作为key，去计算相似度分数。基于当前点的偏移量
这4个点的贡献不相同，

在这里插入图片描述

空间注意力机制
映射到特征图，不一定是准确的那个点，得到的平面是一个高度的，一个点对应4个query，每个query对应一个不同的高度。

先做时间注意力，后做空间注意力

在这里插入图片描述

BEVForm++

在这里插入图片描述
把1x1的卷积核换成3x3的，感受野更大，可以考虑周边的情况，让偏移量的预测更准确

在这里插入图片描述

先做时间，如果不做时间注意力，后面就不准确，可以把前面的query作为初始化。

windows跑不了，必须是Linux环境，显存至少12G以上，

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

量子-Alex 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。