通过几何引导的核变换器实现高效且鲁棒的2D到BEV表示学习(2206)

GKT实现高效鲁棒2D到BEV表示学习

Efficient and Robust 2D-to-BEV Representation Learning via Geometry-guided Kernel Transformer

通过几何引导的核变换器实现高效且鲁棒的2D到BEV表示学习(2206)

在这里插入图片描述

Abstract

在这里插入图片描述

从环视摄像头学习鸟瞰图(BEV)表示对于自动驾驶至关重要。在这项工作中,我们提出了一种新颖的2D到BEV表示学习机制——几何引导的核变换器(Geometry-guided Kernel Transformer,简称GKT)。GKT利用几何先验来指导变换器关注区分度较高的区域并展开核特征以生成BEV表示为了实现快速推理,我们进一步引入了查找表(LUT)索引方法以在运行时摆脱对相机校准参数的依赖。GKT可以在3090 GPU上以72.3 FPS的速度运行在2080ti GPU上以45.6 FPS的速度运行并且对相机偏差和预定义的BEV高度具有鲁棒性。GKT在nuScenes验证集上实现了最先进的实时分割结果,即38.0 mIoU(在0.5米分辨率下100m×100m的感知范围)。鉴于其效率、效果和鲁棒性,GKT在自动驾驶场景中具有重要的实际价值,特别是在需要实时运行的系统中。代码和模型将在以下链接提供:https://github.com/hustvl/GKT
索引术语自动驾驶三维感知鸟瞰图鲁棒性查找表索引

1 INTRODUCTION

在这里插入图片描述
基于鸟瞰图(BEV)表示的环视感知是自动驾驶中的一个前沿范式。对于多视图摄像系统来说,如何将2D图像表示转换为BEV表示是一个挑战性的问题。根据是否显式利用几何信息进行特征转换先前的方法可以分为两类,即基于几何的逐点转换无几何全局转换
在这里插入图片描述
基于几何的逐点转换。如 图1(a) 所示,逐点转换方法[1]、[2]、[3]、[4]、[5]、[6]利用相机的校准参数(内在和外在参数)来确定2D位置和BEV网格之间的对应关系(一对一或一对多)。有了这种对应关系,2D特征被投影到3D空间并形成BEV表示。
在这里插入图片描述
在这里插入图片描述
然而,逐点转换过于依赖校准参数。对于一个运行中的自动驾驶系统来说,由于复杂的外部环境,摄像头在运行时可能会偏离校准位置,这使得2D到BEV的对应关系变得不稳定,并将系统误差引入到BEV表示中。此外,逐点转换通常需要复杂的和耗时的2D-3D映射操作,例如,预测像素上的深度概率分布、沿着射线将像素特征广播到BEV空间以及关于相机参数的高精度计算。这些操作效率低下,难以优化,限制了实时应用的实现
在这里插入图片描述
无几何全局转换。全局转换方法[7]考虑了图像和BEV之间的全面相关性。如 图1(b) 所示,多视图图像特征被展平每个BEV网格与所有图像像素互动全局转换不依赖于2D到BEV投影中的几何先验。因此,它对摄像头的偏差不敏感
在这里插入图片描述
图1:(a) 基于几何的逐点转换利用相机的校准参数(内在参数和外参数)来确定2D位置和BEV网格之间的对应关系(一对一或一对多)。(b) 无几何全局转换考虑了图像和BEV之间的全面相关性。每个BEV网格与所有图像像素互动。
在这里插入图片描述
但是,这也带来了问题。1) 全局转换的计算预算与图像像素数量成正比。分辨率和效率之间存在尖锐的矛盾2) 没有几何先验作为指导,模型必须从所有视图中全局挖掘区分信息,这使得收敛更加困难
在这里插入图片描述
在这项工作中,针对高效且鲁棒的BEV表示学习,我们提出了一种新的2D到BEV转换机制,命名为几何引导的核变换器(简称GKT)。在粗略的相机参数下,我们大致将BEV位置投影得到多视图和多尺度特征图中的先验2D位置。然后,我们在先验位置周围展开 K h × K w K_h×K_w Kh×Kw 的核特征,并使BEV查询与相应的展开特征互动以生成BEV表示。此外,我们引入了查找表(LUT)索引,以在运行时摆脱相机参数的依赖

感觉是结合了两种方法,计算更快,同时又对摄像头的标定误差不那么敏感

在这里插入图片描述
在这里插入图片描述
GKT在运行时具有高鲁棒性。与逐点转换相比,GKT仅将相机参数作为指导,而不是过度依赖它们当相机发生偏移时,相应的核区域也会发生偏移,但仍然可以覆盖目标。变换器是排列不变的,核区域的注意力权重会根据偏移动态生成。因此,GKT始终能够聚焦于目标,不受相机偏移的影响
在这里插入图片描述
GKT具有高效率。通过提出的 LUT 索引在运行时我们摆脱了逐点转换所需的2D-3D映射操作使前向过程紧凑且快速。与全局转换相比,GKT只关注几何引导的核区域避免了全局互动。GKT需要的计算量更少,并且收敛速度更快
在这里插入图片描述
因此,GKT在逐点转换和全局转换之间取得了很好的平衡,实现了高效且鲁棒的2D到BEV表示学习。我们在nuScenes地图视图分割上验证了GKT。GKT表现出极高的效率,运行速度在3090 GPU上为72.3 FPS,在2080ti GPU上为45.6 FPS,比所有现有方法都快得多。GKT达到了38.0 mIoU的成绩,在所有实时方法中处于领先地位。我们将在不久的将来将GKT扩展到其他基于BEV的任务。

2 METHOD

2.1 Geometry-guided Kernel Transformer

在这里插入图片描述
所提出的GKT框架在 图2 中展示。共享的CNN骨干网络从环视图像 I = { I v } I = \{I_v\} I={ Iv} 中提取多尺度多视图特征 F img = { F v s } F_{\text{img}} = \{F_v^s\} Fimg={ Fvs}BEV空间被均匀划分成网格。每个BEV网格对应一个 3D 坐标 P i = ( x i , y i , z ) P_i = (x_i, y_i, z) Pi=(x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值