BEV论文研读

LSS (ECCV 2020)

论文下载地址
github地址

网络总体结构

  1. Lifts:通过形成一个上下文特征的截锥体点云把二维图片映射到3D空间。
  2. Splats:将lifts形成的立体的截锥体特征映射到一个参考平面上,便于下游任务进行运动规划。
  3. Shoots:将proposal映射到splats中形成的参考平面上。

网络结构细节

在这里插入图片描述

  1. 在lifts中,输入图片的维度为3 × \times ×H × \times ×W ,我们提取到的特征的维度为H × \times ×W × \times ×D × \times ×C。其中D是离散距离的向量表征,C是上下文的向量表征。如上图所示。
  2. 在splats中,添加相机内外参信息(extrinsics and intrinsics),通过Pillar Pooling来对lifts得到的特征点云转化到bev map上,输出的特征维度为H × \times ×W × \times ×C。
  3. 在shoots中,在cost map上对不同的轨迹进行计算评分,在操作的过程中使用了k-means。

DETR3D (CoRL 2021)

论文下载地址
github地址

网络总体结构

DETR3D

  1. Feature Learning:对图片进行二维特征提取
  2. Detection Head:形成3D中心,对二维特征进行查询

网络结构细节

  1. Feature Learning:6张输入图片,经过ResNet和FPN之后,得到四组具有丰富信息的特征集合。输入为6 × \times × Him × \times × Wim × \times × 3,输出为 4 × \times × 6 × \times × H × \times × W × \times × C。
  2. Detection Head:预测一系列与物体检测相关的边界框中心(x,y,z);使用相机转换矩阵将3D中心映射到二维特征图上;根据映射之后的中心点通过双线性插值对特征进行采样,并将它们合并到对象查询中;使用多注意头机制描述对象。几轮迭代之后得到的检测查询q,经过两个卷积结构之后得到检测的box和label。
  3. Loss: 继承于DETR,使用Hungarian算法。针对类别预测,使用focal loss;针对检测框预测,使用L1 loss

BEVFormer(ECCV 2022)

论文下载地址
github地址

网络总体结构

在这里插入图片描述

  1. temporal self-attention:从历史BEV特征中提取时间信息。
  2. spatial cross-attention:从多相机图像中聚合空间特征。
  3. grid-shaped BEV queries:通过注意力机制灵活地融合空间和时间特征。

网络结构细节

BEVFormer

  1. backbone:首先通过骨干网络对二维图片特征进行提取。
  2. encode:
    • three parts:grid-shaped BEV queries, temporal self-attention, and spatial cross-attention.
    • temporal self-attention:每个BEV查询与两个特征交互:当前时间戳的BEV查询和上一个时间戳的BEV特征。
    • spatial crossattention:每个BEV查询只与感兴趣区域的图像特征进行交互

GKT

论文下载地址
github地址

网络总体结构

在这里插入图片描述

  1. Geometry-guided Kernel Transformer:添加几何先验,把bev map中的不同位置对应到不同图片的不同位置上。
  2. Robustness to Camera Deviation:GKT对于相机位置的偏移比较鲁棒。
  3. BEV-to-2D LUT Indexing:建立一个LUT(look-up table),用于把bev map中的grid与图片中的像素区域对应起来(我觉得这个对应只是能对应到角度)。
  4. Configuration of Kernel:GKT的内核配置是灵活的。

网络结构细节

  1. Geometry-guided Kernel Transformer:首先通过骨干网路提取二维特征,把bev map分成一定数量的grid,我们通过一个query,把bev map中的不同位置的grid对不同位置的特征图进行查询(这个特征图包含深度信息,不然只能查询到view而查询不到深度位置(opinion:对于深度的估计在bev map分各种占据着极其重要的意义))
  2. Robustness to Camera Deviation:GTK通过对相机的位置增加位移噪声和旋转噪声来验证/保证网络对于相机从原本位置发生偏移的鲁棒性。
  3. BEV-to-2D LUT Indexing:对于bev map中的每个grid的kernel region是固定的,可以离线进行计算。然后,通过建立一个LUT,把bev map中的grid与对对应的图像像素区域关联起来,进而进行特征的高效分配。
  4. Configuration of Kernel:GKT可以通过调整kernel的尺寸来平衡感受野大小和计算量的大小。并且由于前期LUT的建立,调整kernel的大小并不会影响GKT的效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值