原文链接:https://arxiv.org/abs/2407.08526
简介:目前的BEV感知通常被局限在50m内的范围。标清(SD)导航地图可提供道路结构拓扑的轻量化表达,可将其中的超越视线(BLOS)环境先验与车载相机的近距离视觉信息结合,提高感知能力。本文提出BLOS-BEV,一种使用SD地图的BEV分割模型,可进行超越视线感知(200m范围)。本文探索多种特征融合策略,以有效整合视觉BEV表达和SD地图的语义特征。实验表明,在nuScenes和Argoverse数据集上,本文多模态方法能大幅增强在50m范围内的感知精度,且在远距离感知方面有着优异的性能。
注:本文方法是道路的BEV分割,而未考虑动态物体。
1. 概述
本文的BLOS-BEV包括4部分:BEV主干、SD地图编码器、BEV融合模块和BEV解码器,如图所示。
2. BEV主干
本文使用LSS作为BEV特征提取器基准方案,也可使用其余方法。视图变换的输出为视觉BEV特征 F v ∈ R H × W × C F_v\in\mathbb R^{H\times W\times C} Fv∈RH×W×C。使用4阶段FPN作为BEV编码器,进一步编码BEV特征,其第二和第四阶段的特征 F v 2 ∈ R H 2 × W 2 × 2 C , F v 4 ∈ R H 8 × W 8 × 8 C F_{v2}\in\mathbb R^{\frac H2\times\frac W2\times 2C},F_{v4}\in\mathbb R^{\frac H8\times\frac W8\times 8C} Fv2∈R2H×2W×2C,Fv4∈R8H×8W×8C作为BEV融合模块的输入。
3. SD地图编码器
使用CNN结构,输入为SD地图和自车位置。
地图数据:利用OpenStreetMap (OSM)的地图来提供道路先验信息,如图(a)所示。
预处理:为简化SD地图数据和减小不相关地图元素的影响,本文提取出道路骨架,使得SD地图编码器关注道路的拓扑结构。提取的道路骨架如图(b)所示。
编码:使用VGG结构作为SD地图编码器的主干,生成空间编码的地图表达 F s d F_{sd} Fsd。同样选择