1. 为什么需要BEV?
在城区 NOA、高速 NOA、代客泊车等场景里,车辆需要同时理解“我在哪”“周围有什么”“接下来怎么走”。传统基于前视或环视 2D 图像的感知,存在三大痛点:
-
视角割裂:6 路 2D 图像之间没有直接的空间关联,后融合容易漏检。
-
尺度歧义:2D 检测框难以精确估计 3D 尺寸和朝向。
-
时序漂移:纯视觉 SLAM 在长距离、弱纹理场景下容易累计误差。
BEV(Bird’s-Eye-View) 鸟瞰视图,把来自摄像头、激光雷达、毫米波甚至超声波的数据统一投影到车辆坐标系下的俯视图,天然具备以下优势:
-
统一视角:所有传感器信息在同一张“俯视图”里做融合,避免视角切换带来的误差。
-
物理尺度一致:1 pixel ≈ 0.1 m(可配置),便于直接输出 3D 位置、速度、航向角。
-
与下游规控对齐:规划、控制模块本身就工作在车辆坐标系,减少坐标转换损耗。
2. BEV感知流水线
一张图看懂数据流向(建议收藏):
摄像头×N → 2D Backbone → 3D 特征体 → BEV 编码器 → 多模态融合 → 检测/分割/预测
激光雷达×1 → 3D Backbone ─┘
毫米波×K ───────────────┘
2.1 从2D图像到3D空间:LSS 与 Transformer
早期方法(LSS, Lift-Splat-Shoot,ECCV 2020)先把每个像素“抬”出不同深度假设,形成视锥特征体,再用“Splat”投影到 BEV 网格。
2022 年起,基于 Transformer 的 Cross-Attention 成为主流:
-
BEVFormer(ECCV 2022):用一组可学习的 BEV Query,与多视角图像做 Cross-Attention,实现端到端训练。
-
PETR(ECCV 2022):把 3D 坐标编码进 2D 特征,再让 Query 直接 Attend 到全局特征,避免显式投影。
2.2 多模态融合:Camera + LiDAR
-
BEVFusion(ICRA 2023):分别对 Camera 和 LiDAR 提 BEV 特征,再按元素相加或 concat,取长补短。
-
UVTR(CVPR 2023):用体素化 LiDAR 做几何先验,指导图像特征做深度估计。
经验:LiDAR 的稀疏、高精度几何 + Camera 的稠密语义,是目前量产落地的黄金组合。
3. 常见任务与指标
| 任务 | 输出 | 评价指标 | 2024 SOTA 概览 |
|---|---|---|---|
| 3D 目标检测 | 7-DoF Box (x,y,z,l,w,h,θ) | mAP@0.5/0.7 | BEVFormer v2(mAP 61.2 NDS 70.4@nuScenes) |
| Occupancy Grid | 0/1/255 3D 体素 | mIoU | FB-Occ(CVPR 2024,mIoU 44.3) |
| 地图分割 | 可行驶区域、车道线、停车线 | mIoU | MapTR v2(mIoU 67.8) |
| 运动预测 | 多模态轨迹 (T=6s) | minADE/minFDE | UniAD(CVPR 2023,minADE 0.71) |
4. 上车落地:工程化要点
-
算力
-
单 Orin-X 254 TOPS:
-
BEVFormer-base 60 ms
-
BEVFusion-L 80 ms
-
-
裁剪技巧:
-
2D Backbone 换 EfficientNet-Lite
-
BEV 网格 200×200 → 128×128
-
INT8 量化(mAP 掉 0.3 以内)
-
-
-
时序融合
-
叠加 4 帧历史 BEV 特征,带来 3~5 个 mAP 提升,延迟增加 <10 ms。
-
用 ConvLSTM 或 Temporal Transformer 均可。
-
-
数据闭环
-
影子模式回传难例(夜晚、施工、异形车)。
-
在线挖掘遮挡场景,自动标注 + 人工质检。
-
5. 代码&模型快速体验
# 1. 环境
conda create -n bev python=3.8
pip install torch==1.13.1+cu117 torchvision mmdet3d
# 2. 下载 nuScenes mini
python tools/create_data.py nuscenes --root-path ./data/nuscenes --out-dir ./data/nuscenes --extra-tag nuscenes
# 3. 训练 BEVFormer-S
bash tools/dist_train.sh projects/configs/bevformer/bevformer_small.py 4
6. 总结与展望
-
2024:BEV 已在 30 万+ 量产车落地,10 万价位车型开始标配。
-
2025-2026:
-
端到端 BEV Planner(P-Planner、VADv2)将规控也搬进 BEV 空间,减少坐标转换。
-
4D Occupancy 取代 3D Box,应对异形障碍物、动态物体。
-
无图城区方案:BEV + 众包 SLAM + HDMap-Lite,实现“有导航就能开”。
-
1万+

被折叠的 条评论
为什么被折叠?



