实时部署！DSVT：3D动态稀疏体素Transformer主干（北大&华为）

原创

已于 2023-02-01 16:01:25 修改 · 3k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#3d #transformer #深度学习 #人工智能 #计算机视觉

于 2023-01-29 07:30:59 首次发布

摘要

设计一个高效但易于部署的3D主干来处理稀疏点云是3D目标检测中的一个基本问题。与定制的稀疏卷积相比，Transformers中的注意力机制更适合于灵活地建模长距离关系，并且更易于在现实世界应用中部署。然而，由于点云的稀疏特性，在稀疏点云上应用标准Transformer是非常重要的。因此本文提出了动态稀疏体素Transformer（DSVT），这是一种用于室外3D目标检测的基于单步窗口的体素Transformer主干。为了有效地并行处理稀疏点云，论文提出了动态稀疏窗口注意力，它根据稀疏性在每个窗口中划分一系列局部区域，然后以完全并行的方式计算所有区域的特征。为了允许跨集合连接，论文设计了一种旋转集合分区策略，该策略在连续的自注意力层中的两个分区配置之间交替。为了支持有效的下采样并更好地编码几何信息，论文还提出了一个稀疏点云上的注意力式3D池化模块，该模块功能强大且易于部署，无需使用任何定制的CUDA操作。论文的模型在大规模Waymo开放数据集上实现了最先进的性能，并取得了显著的进步。更重要的是，TensorRT可以以实时推理速度（27Hz）轻松部署DSVT。

总结来说，本文的贡献如下：

论文提出了动态稀疏窗口注意力，这是一种新的基于窗口的注意力策略，用于并行有效地处理稀疏三维体素；
论文提出了一种可学习的3D池化操作，它可以有效地对稀疏体素进行下采样，并更好地编码几何信息；
基于上述关键设计，论文介绍了一种高效但易于部署的Transformer 3D主干，无需任何定制CUDA操作。

方法

本节介绍了动态稀疏体素Transformer（DSVT），这是一种高效且易于部署的仅用于Transformer的3D主干，用于增强3D目标检测。DSVT可以管理大范围内任意大小的稀疏体素化表示，并通过动态稀疏窗口注意力机制高效地并行处理它们。为了支持有效的下采样，进一步提出了一个可学习的3D池化模块，以更好地编码局部几何信息。

概览

DSVT体系结构概述如图3所示，图3说明了pillar版本（DSVT-P）。它首先通过体素特征编码（VFE）模块将输入点云转换为稀疏体素，就像先前基于体素的方法[37，45，48]。每个体素将被视为“token”。考虑到Transformer的足够感受野和室外目标的微小规模，论文遵循[8]采用单步长网络设计，而不是使用分层表示，这不会降低X/Y轴上的特征图的规模，并证明在室外3D物体检测中表现得更好。通过这种设计，在这些体素上应用了几个具有动态稀疏窗口注意力的体素transformer block（DSVTblock）。为了在稀疏体素之间提供连接，论文设计了两种方法：旋转集合和混合窗口，它们在保持高效计算的同时引入了窗口内和窗口间特征传播。为了支持3D变体并在无需任何额外CUDA操作的情况下更好地编码准确的3D几何信息，设计了一个可学习的3D池化模块用于有效的下采样。然后将提出的DSVT提取的体素特征投影到鸟瞰图（BEV）特征图中。最后应用centernet [48]样式的检测头来估计3D边界框。论文提出的架构可以方便地替代现有方法中的3D主干，以增强室外3D目标检测