苦战七年卷了三代！关于BEV的演进之路：哈工大&清华最新综述

原创

于 2025-09-18 07:31:16 发布 · 1.1k 阅读

CC 4.0 BY-SA版权

❝
BEV作为智能驾驶的量产基石，它的发展过程是怎样的？盘点BEV的三代演进之路。

BEV感知已成为自动驾驶领域的基础范式，能够提供统一的空间表征，为鲁棒的多传感器融合和多智能体协作提供支持。随着自动驾驶车辆从受控环境向现实世界部署过渡，如何在复杂场景（如遮挡、恶劣天气和动态交通）中确保BEV感知的安全性和可靠性，仍是一项关键挑战。本文首次从安全关键视角对BEV感知进行全面综述，系统分析了当前主流框架及实现策略，并将其划分为三个渐进阶段：单模态车载感知、多模态车载感知和多智能体协作感知。此外，本文还研究了涵盖车载、路侧及协作场景的公开数据集，评估了这些数据集在安全性和鲁棒性方面的适用性。本文进一步指出了开放世界场景下的关键挑战（包括开放集识别、大规模未标注数据、传感器性能退化及智能体间通信延迟），并概述了未来研究方向，如与端到端自动驾驶系统的融合、具身智能及大型语言模型的应用。

论文链接：https://arxiv.org/abs/2508.07560v1
论文标题：Progressive Bird's Eye View Perception for Safety-Critical Autonomous Driving: A Comprehensive Survey

更多关于BEV感知的量产探索、技术发展及行业动态，欢迎加入自动驾驶之心知识星球，与数百位大佬面对面交流！

一、引言

随着智能交通的快速发展，自动驾驶车辆正从受控环境向现实世界部署过渡。作为自动驾驶系统的感知核心，实时、可靠的环境理解对保障行驶安全至关重要。然而，复杂场景（如光照变化、恶劣天气、交通拥堵及遮挡）会严重降低感知性能，进而影响下游决策与控制模块的正常工作。为提升感知系统的鲁棒性，近年来的研究探索了多传感器融合技术和多智能体协作感知技术，前者通过多模态传感器的互补性获取更全面信息，后者借助智能体间的信息交互拓展感知范围。尽管如此，如何实现异构模态数据的对齐，以及如何统一车载与基础设施平台的空间表征，仍是当前面临的核心挑战。

值得注意的是，BEV感知已成为自动驾驶领域的主流范式，其提供的统一空间表征能够同时促进多传感器融合和多智能体协作。鉴于BEV感知的核心地位，基于BEV的感知系统从“单模态”到“多模态”、再到“协作框架”的渐进式演进，已成为提升自动驾驶系统安全性与鲁棒性的关键方向。在后续章节中，本文将从三个关键维度系统综述BEV感知技术：BEV感知的本质是什么、为何BEV感知对自动驾驶安全至关重要、以及如何在多模态与多智能体场景中有效实现BEV感知。

BEV感知的本质（What）

BEV感知是一种高效的空间表征范式，能够将来自多种传感器模态（如相机、激光雷达（LiDAR）、毫米波雷达）的异构数据投影到统一的BEV坐标系中。通过这种投影，系统可构建周围环境的一致性结构化空间语义地图。由于消除了传感器特有的视角差异，这种自上而下的视角能够帮助系统准确感知和理解物体间的空间关系，大幅降低多视角与多模态数据融合的复杂度。

BEV感知的重要性（Why）

凭借统一且可解释的空间表征，BEV感知成为自动驾驶中多模态融合与多智能体协作感知的理想基础。通过将图像、LiDAR、雷达等异构传感器数据投影到统一的BEV平面，不同模态的信息可实现无缝对齐与集成。这种统一坐标系不仅简化了车载与路侧传感器的融合过程，还能支持多车辆与基础设施间的高效信息共享，从而突破单车辆感知的局限性。此外，BEV表征具备结构化、一致性的语义信息，能够为路径规划、车辆控制等下游任务提供支持，成为复杂协作驾驶场景中“感知-决策”环节的关键桥梁。

BEV感知的实现方式（How）

为应对日益复杂的动态交通场景挑战，感知系统持续探索新范式以提升安全性与鲁棒性。在本文综述中，我们将安全导向的BEV感知（SafeBEV）的演进划分为三个主要阶段（如图1所示）：SafeBEV 1.0（单模态车载感知）、SafeBEV 2.0（多模态车载感知）和SafeBEV 3.0（多智能体协作感知）。各阶段的特征与技术进展将在后续章节详细阐述。

SafeBEV 1.0：单模态车载感知
该阶段采用单一传感器（如相机或LiDAR）实现基于BEV的场景理解。早期基于相机的方法依赖单应性变换，但在复杂场景中鲁棒性不足。近年来的方法转向数据驱动的BEV建模，大致分为稀疏范式与密集范式两类：稀疏方法通过估计深度信息将二维特征提升为三维点云，再体素化生成BEV，但性能受深度估计精度影响较大；密集方法采用多层感知机（MLP）或Transformer（如BEVFormer、PETR），通过非线性投影或跨视角注意力机制直接将二维特征映射到BEV空间。BEVDepth、BEVDet等混合设计则融合深度预测以优化密集BEV建模效果。对于LiDAR感知，主流流程通常通过点云体素化、稀疏卷积（SparseConv）或PointNet等技术提取BEV特征，在空间分辨率与计算效率间取得平衡。
SafeBEV 2.0：多模态车载感知
该阶段通过集成相机、LiDAR、雷达等异构传感器提升BEV感知性能，突破单模态系统的局限性，增强遮挡与恶劣天气下的鲁棒性。目前的融合策略主要分为五类：相机-雷达融合、相机-LiDAR融合、雷达-LiDAR融合、相机-LiDAR-雷达三模态融合及时间融合。每种模态组合均利用了不同传感器的互补特性：例如，相机的语义信息与LiDAR/雷达的几何信息结合可提升精度与可靠性；LiDAR的空间精度与雷达的速度感知能力结合可实现远距离、全天候感知；三模态全融合则能构建全面的BEV表征；时间融合进一步提升动态场景中的时间一致性。这些策略共同增强了现实自动驾驶场景中BEV感知的安全性、适应性与可靠性。
SafeBEV 3.0：多智能体协作感知
随着车联网（V2X）技术的发展，自动驾驶车辆可通过车-车、车-基础设施间的信息交互与联合推理，突破单智能体感知的局限性。通过在统一BEV空间中聚合多源传感器数据，协作感知能够实现全局环境建模，为动态交通中的安全导航提供关键支持。V2VNet、DiscoNet、CoBEVT等代表性框架通过特征压缩、带宽高效协议及分布式推理技术，在降低通信成本的同时实现实时、可扩展的协作。此外，多智能体观测的时空融合技术能够增强全局态势感知，提升对遮挡或远距离目标的感知能力。该范式还为群体决策、协作轨迹规划及多智能体控制等高层功能提供支持，是向大规模、安全、智能自动驾驶迈进的关键一步。

鉴于BEV感知技术的快速发展，已有部分综述文献涌现：Ma等人聚焦于纯相机BEV方法，总结了该领域三十年的发展历程；Li等人综述了车载层面的单目与多模态BEV感知技术；Zhao等人对车-车（V2V）协作范式进行了分类；Singh等人则研究了恶劣条件下的视觉-雷达融合技术。尽管这些工作从纯相机、多模态融合、V2V协作等视角提供了有价值的概述，但仍存在以下关键缺口：（1）从安全性与鲁棒性视角对BEV感知的分析不足；（2）对路侧BEV系统及更广泛的协作范式（如车-基础设施（V2I）、基础设施-基础设施（I2I））覆盖不够全面；（3）缺乏对大规模车载及多智能体数据集的深入探讨。此外，BEV感知与新兴范式（如端到端自动驾驶、大型语言模型、具身智能）的融合也尚未得到充分研究。

本文首次从安全性与鲁棒性视角，对车载及协作式BEV感知方法进行全面综述，将现有方法划分为单模态车载感知、多模态车载感知、多智能体协作感知三个阶段。此外，本文系统综述了关键公开数据集，评估了这些数据集对安全性与鲁棒性研究的支持程度，并建立了相应的评估指标与基准。为提升研究的可访问性与可复现性，本文维护了一个GitHub仓库，包含方法实现、数据集使用指南及示例代码。最后，本文指出了BEV感知在开放世界场景中面临的关键安全挑战（如开放集部署、大规模未标注数据、传感器性能退化、多智能体通信延迟），并探讨了其与具身智能、端到端自动驾驶、大型语言模型融合的未来趋势。

本文其余部分结构如下：第2章综述基于单模态车载传感器的BEV感知技术；第3章从安全性与鲁棒性视角探讨多模态融合策略；第4章分析多智能体协作式BEV感知技术，包括路侧感知与V2X协作；第5章综述涵盖车载、路侧及协作场景的公开数据集，指出当前局限性与未来方向；第6章与第7章总结挑战，并概述面向现实自动驾驶的安全鲁棒型BEV感知的未来研究方向。

二、SafeBEV 1.0：基于车辆的单模态鸟瞰图感知方法

基于车辆的单模态BEV感知是自动驾驶中的基础阶段，它仅通过相机或LiDAR这一种传感器，就能实现高效的俯视视角场景理解。尽管该方法具有系统复杂度低、计算成本低的优势，但其在恶劣条件下的鲁棒性仍有限：基于相机的方法对光照变化、遮挡和深度估计误差较为敏感，而基于激光雷达的方法则面临点云数据稀疏性和天气导致的性能衰减问题。

基于视觉的鸟瞰图感知（BEV Camera）

基于车辆侧纯相机的鸟瞰图感知面临一个核心挑战：如何从二维（2D）图像中推断出空间一致性的鸟瞰图表示。近年来的相关研究进展通常采用两阶段流程：先从透视视角图像中提取特征，再将这些特征空间投影到鸟瞰图平面，以完成目标检测、地图分割等下游任务（见图3（a））。表1根据相机配置（单目相机、多相机）和特征转换策略（3D到2D、2D到3D），对代表性方法进行了分类。其中，“3D到2D方法”会先推断中间3D几何信息，再进行投影；“2D到3D方法”则通过鸟瞰图映射直接学习空间推理能力。本节将综述各类方法的核心假设、编码机制和空间转换设计。

单目相机（Monocular）

2D到3D方法（2D-to-3D Methods）

为解决单目BEV感知中固有的深度模糊问题，现有方法通常采用两阶段策略：先从透视视角图像中提取2D特征，再通过深度估计将这些特征提升到3D空间，从而实现向BEV平面的准确投影。

“伪激光雷达”方法（Pseudo-LiDAR Methods）：这类方法将单目或双目图像转换为深度图，再将深度图反向投影到3D空间，以模拟激光雷达点云。例如，AM3D通过将单目3D检测框架与特征融合相结合，进一步提升了检测精度；Simonelli等人则通过引入3D置信度估计模块，增强了方法的可靠性。
深度分布方法（Depth Distribution Methods）：这类方法将每个像素的深度建模为概率分布，并直接将其投影到鸟瞰图空间，无需显式构建点云即可实现高效的几何推理。例如，OFT（正交特征变换）通过将图像特征正交投影到鸟瞰图，并沿高度轴聚合特征，解决了透视畸变问题；CaDDN（分类深度分布网络）在此基础上，通过预测分类深度分布，并利用激光雷达监督的投影几何，增强了单目输入下的鸟瞰图特征表示。

3D到2D方法（3D-to-2D Methods）

与依赖深度估计的2D到3D方法不同，3D到2D方法利用预定义的3D先验知识，引导图像平面特征向鸟瞰图空间投影。

基于逆透视映射的方法（IPM-based Methods）：这类方法利用逆透视映射（IPM）整合几何先验，实现从图像平面到鸟瞰图域的特征转换。早期研究通过相机成像原理，解决了单目输入中固有的深度模糊问题，从而将透视视角的分割结果投影到鸟瞰图空间。在此基础上，Kim等人将校正后的前视图像与逆透视映射相结合，并利用卷积神经网络（CNNs）直接在鸟瞰图空间中进行目标检测，为逆透视映射引导的鸟瞰图感知奠定了基础框架。
基于多层感知机的方法（MLP-based Methods）：另一类研究方向探索利用多层感知机（MLP）架构，以数据驱动的方式学习从透视视角到鸟瞰图表示的隐式映射，无需显式构建几何模型。例如，PYVA引入循环MLP框架以增强空间一致性，并结合基于Transformer的模块实现跨视角对齐；BEV-LaneDet（鸟瞰图车道检测网络）则通过虚拟相机设计和基于特征金字塔网络（FPN）的特征聚合策略，进一步改进了几何归一化和多尺度融合效果。
基于Transformer的方法（Transformer-based Methods）：近年来出现的一种新范式是利用Transformer架构，通过基于注意力的机制实现视角转换，通常会用到鸟瞰图查询（BEV queries）和解码器模块。例如，PON（极线特征投影网络）率先将极线特征投影到鸟瞰图中，用于语义分割；STSU（结构化查询Transformer）通过在统一Transformer中引入结构化查询，实现了道路拓扑估计与目标检测的联合任务；为实现细粒度空间推理，TIIM将视角转换建模为序列到序列的过程，并引入双注意力机制；PanopticBEV（全景鸟瞰图网络）利用两个专用Transformer分别处理垂直区域和平面区域的投影；HFT（混合特征变换）则融合了“相机感知”和“相机无关”两条路径，以增强鸟瞰图特征表示。

多相机（Multi-camera）

2D到3D方法（2D-to-3D Methods）

在多相机配置中，2D到3D方法的原理与单目相机系统类似，但多相机系统能提供更优的空间推理能力和更密集的场景重建效果。

“伪激光雷达”方法（Pseudo-LiDAR Methods）：基于双目视觉的方法利用更密集的深度线索生成伪激光雷达点云，相比单目估计能提供更精细的空间细节。然而，双目视觉的视场有限，限制了全局感知能力，因此研究人员开发了“距离感知增强”技术。例如，Pseudo-LiDAR++通过改进双目深度估计优化了早期设计；E2E Pseudo-LiDAR（端到端伪激光雷达）引入可微坐标变换，支持端到端训练；后续研究还通过引入“置信度感知深度优化”和“高效双目匹配”技术，进一步提升了方法的精度和运行效率。
深度分布方法（Depth Distribution Methods）：另一类主流策略是估计每个像素的深度分布，并将图像特征转换到3D空间。例如，LSS（ Lift, Splat, Shoot）通过估计概率深度分布，并利用外积运算将图像特征投影到3D体素中，生成统一的鸟瞰图特征图；在此范式基础上，BEVDet、BEVDepth和MatrixVT等方法采用LSS风格的视角转换，并通过架构优化，解决了原始框架在精度、效率和可扩展性方面的局限性。

3D到2D方法（3D-to-2D Methods）

单目相机场景中3D到2D方法的有效性，推动了其在多相机系统中的应用——多相机的标定视图能增强空间上下文建模，减少遮挡影响。

基于多层感知机的方法（MLP-based Methods）：这类方法为多视角图像特征到鸟瞰图域的映射提供了轻量且高效的方案。例如，NEAT（神经注意力场网络）采用基于MLP的隐式解码器融合特征，实现鸟瞰图分割与运动规划的联合任务；VPN（视觉关系网络）引入基于MLP的视觉关系模块，聚合跨视角的多尺度上下文特征；为提升对相机标定噪声的鲁棒性，Sun等人提出双空间位置编码方案，并结合MLP融合，实现准确的鸟瞰图地图预测。

最低0.47元/天解锁文章