BEV应用于通过显示预测深度分布来构建3D特征。LSS预测深度上的分类分布和上下文向量,他们的外积可以确定沿透视射线的每个点的特征,这些特征接近真实的深度分布。此外,其将所有相机的预测结果融到一个场景下,从而减小校准误差。BEVDet遵循了LSS范式,并提出了一个用于从BEV进行多视角相机3D检测的框架,该框架由图像视角编码器、视角转换器、BEV编码器和检测头组成。后续的BEVDet4D 在基于多摄像头的3D检测中利用了时间线索。
BEV应用在传感器融合,由于相机到激光雷达的投影丢弃了相机特征的语义密度,BEVFusion设计一种高效的相机到 BEV 转换方法,有效地将相机特征投影到 BEV 中,然后使用卷积层将其与激光雷达 BEV 特征融合。BEVFusion将BEV融合视为保持感知系统稳定性的鲁棒性主题。它将相机和激光雷达特征编码到同一个BEV中,以确保相机和激光雷达流的独立性。这种设计使感知系统能够保持对传感器故障的稳定性。除了 BEVFusion,UVTR 表示模态特定体素空间中的不同输入模式,没有高度压缩,以避免语义歧义并实现进一步的交互。图像体素空间是通过将每个视图的图像特征转换为预定义的空间来构建的,该空间具有为每张图像生成的深度分布。点体素空间是使用常见的 3D 卷积网络构建的。然后在两个体素空间之间进行跨模态交互以增强特定于模态的信息。
BEV应用于 3D 感知的Transformers结构。Transformers 从视觉输入展示了它们在 3D 感知中的主要表现。DETR3D 利用 Transformer 架构连接 2D 观察和稀疏的 3D 预测,从而实现非最大抑制 (NMS) 自由对象检测。BEVFormer通过将透视图的特征转换为密集的鸟瞰视图(BEV)来扩展DETR3D。PETR3D进一步将3D位置信息融入到特征提取中,产生3D位置感知特征。除了相机图像外,最近的方法还利用多模态输入来补充单模态。FUTR3D利用DETR3D提出的3D到2D查询来融合来自多种模式的特征。