实时部署!DSVT:3D动态稀疏体素Transformer主干(北大&华为)

摘要

设计一个高效但易于部署的3D主干来处理稀疏点云是3D目标检测中的一个基本问题。与定制的稀疏卷积相比,Transformers中的注意力机制更适合于灵活地建模长距离关系,并且更易于在现实世界应用中部署。然而,由于点云的稀疏特性,在稀疏点云上应用标准Transformer是非常重要的。因此本文提出了动态稀疏体素Transformer(DSVT),这是一种用于室外3D目标检测的基于单步窗口的体素Transformer主干。为了有效地并行处理稀疏点云,论文提出了动态稀疏窗口注意力,它根据稀疏性在每个窗口中划分一系列局部区域,然后以完全并行的方式计算所有区域的特征。为了允许跨集合连接,论文设计了一种旋转集合分区策略,该策略在连续的自注意力层中的两个分区配置之间交替。为了支持有效的下采样并更好地编码几何信息,论文还提出了一个稀疏点云上的注意力式3D池化模块,该模块功能强大且易于部署,无需使用任何定制的CUDA操作。论文的模型在大规模Waymo开放数据集上实现了最先进的性能,并取得了显著的进步。更重要的是,TensorRT可以以实时推理速度(27Hz)轻松部署DSVT。b57a52d8b247a49b7eb1807076018fbe.png

总结来说,本文的贡献如下:

  • 论文提出了动态稀疏窗口注意力,这是一种新的基于窗口的注意力策略,用于并行有效地处理稀疏三维体素;

  • 论文提出了一种可学习的3D池化操作,它可以有效地对稀疏体素进行下采样,并更好地编码几何信息;

  • 基于上述关键设计,论文介绍了一种高效但易于部署的Transformer 3D主干,无需任何定制CUDA操作。

方法

本节介绍了动态稀疏体素Transformer(DSVT),这是一种高效且易于部署的仅用于Transformer的3D主干,用于增强3D目标检测。DSVT可以管理大范围内任意大小的稀疏体素化表示,并通过动态稀疏窗口注意力机制高效地并行处理它们。为了支持有效的下采样,进一步提出了一个可学习的3D池化模块,以更好地编码局部几何信息。

概览

DSVT体系结构概述如图3所示,图3说明了pillar版本(DSVT-P)。它首先通过体素特征编码(VFE)模块将输入点云转换为稀疏体素,就像先前基于体素的方法[37,45,48]。每个体素将被视为“token”。考虑到Transformer的足够感受野和室外目标的微小规模,论文遵循[8]采用单步长网络设计,而不是使用分层表示,这不会降低X/Y轴上的特征图的规模,并证明在室外3D物体检测中表现得更好。通过这种设计,在这些体素上应用了几个具有动态稀疏窗口注意力的体素transformer block(DSVTblock)。为了在稀疏体素之间提供连接,论文设计了两种方法:旋转集合和混合窗口,它们在保持高效计算的同时引入了窗口内和窗口间特征传播。为了支持3D变体并在无需任何额外CUDA操作的情况下更好地编码准确的3D几何信息,设计了一个可学习的3D池化模块用于有效的下采样。然后将提出的DSVT提取的体素特征投影到鸟瞰图(BEV)特征图中。最后应用centernet [48]样式的检测头来估计3D边界框。论文提出的架构可以方便地替代现有方法中的3D主干,以增强室外3D目标检测

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值