BEVFusion的雷达点云处理的decoder部分采用了SECOND模型,所以对SECOND论文进行阅读整理。
SECOND模型网络结构
SECOND模型结构由3部分组成:1. 体素特征提取器;2. 稀疏卷积中间层;2. RPN层。
体素特征提取器
使用 体素特征编码 (VFE) 层来提取体素特征。VFE 层将同一体素中的所有点作为输入,并使用由线性层、批量归一化 (BatchNorm) 层和ReLU层组成的全连接网络 (FCN) 来提取点状特征。然后,使用逐元素最大池化来获取每个体素的局部聚合特征。最后,将获得的特征平铺,并将这些平铺特征和逐点特征连接在一起。
稀疏卷积中间层
中间提取器用于学习有关 z 轴的信息,并将稀疏的 3D 数据转换为 2D BEV 图像。下图显示了中间提取器的结构。它由两个稀疏卷积阶段组成。每个阶段包含几个子流形卷积层(submanifold convolutional layers)和一个正常稀疏卷积,以在 z 轴上执行下采样。在 z 维被下采样到一或二之后,稀疏数据被转换为密集特征图。然后,数据被简单地重塑为类似图像的 2D 数据。
RPN层
RPN 最近已开始在许多检测框架中使用。作者使用类似于单次多框检测器 (SSD) 的架构来构建 RPN 架构。RPN 的输入由来自稀疏卷积中间提取器的特征图组成。RPN 架构由三个阶段组成。每个阶段都以下采样卷积层开始,然后是几个卷积层。在每个卷积层之后,应用 BatchNorm 和 ReLU 层。然后,我们将每个阶段的输出上采样为相同大小的特征图,并将这些特征图连接成一个特征图。最后,应用三个 1×1 卷积来预测类别、回归偏移和方向。