BEV端到端视觉论文合集|从不同的视角解析BEV感知技术

最新推荐文章于 2025-03-26 15:09:47 发布

原创

最新推荐文章于 2025-03-26 15:09:47 发布 · 1.4k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#BEV #transformer

随着自动驾驶技术的不断发展，基于摄像头的感知系统已成为关键，而Bird’s Eye View (BEV)大模型在其中发挥着重要作用。BEV大模型是一种将摄像头捕捉到的2D图像转换为自上而下视角的3D感知的技术，使得车辆能够更好地理解周围环境。

BEV大模型通过提升环境感知能力、增强决策和规划、降低硬件依赖以及推动技术创新，显著加速了自动驾驶汽车的发展进程。

本文分享不同视角的BEV的最新研究论文研究，旨在为学习BEV、端到端的学员分享一些内容参考。

mer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

BEVFormer是一种基于多相机图像的自动驾驶视觉感知新方法。该方法利用Transformer和时序结构生成鸟瞰视图（BEV）特征，支持多种自动驾驶感知任务。BEVFormer通过空间和时间查询与空间和时间空间进行交互，聚合时空信息，从而获得更强大的表示能力。在nuScenes测试集上，该方法达到了新的技术水平，超越了以前的最优方法，并与激光雷达基准方法的性能相当。