MIT-BEVFusion模型--Decode--SECOND模型理解

+煌

已于 2025-04-25 11:25:54 修改

阅读量296

点赞数 8

CC 4.0 BY-SA版权

文章标签：计算机视觉人工智能深度学习自动驾驶

于 2025-03-20 08:17:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_43833005/article/details/146318606

BEVFusion的雷达点云处理的decoder部分采用了SECOND模型，所以对SECOND论文进行阅读整理。

SECOND模型网络结构

SECOND模型结构由3部分组成：1. 体素特征提取器；2. 稀疏卷积中间层；2. RPN层。

体素特征提取器

使用体素特征编码 (VFE) 层来提取体素特征。VFE 层将同一体素中的所有点作为输入，并使用由线性层、批量归一化 (BatchNorm) 层和ReLU层组成的全连接网络 (FCN) 来提取点状特征。然后，使用逐元素最大池化来获取每个体素的局部聚合特征。最后，将获得的特征平铺，并将这些平铺特征和逐点特征连接在一起。

稀疏卷积中间层

中间提取器用于学习有关 z 轴的信息，并将稀疏的 3D 数据转换为 2D BEV 图像。下图显示了中间提取器的结构。它由两个稀疏卷积阶段组成。每个阶段包含几个子流形卷积层(submanifold convolutional layers)和一个正常稀疏卷积，以在 z 轴上执行下采样。在 z 维被下采样到一或二之后，稀疏数据被转换为密集特征图。然后，数据被简单地重塑为类似图像的 2D 数据。

RPN层

RPN 最近已开始在许多检测框架中使用。作者使用类似于单次多框检测器 (SSD) 的架构来构建 RPN 架构。RPN 的输入由来自稀疏卷积中间提取器的特征图组成。RPN 架构由三个阶段组成。每个阶段都以下采样卷积层开始，然后是几个卷积层。在每个卷积层之后，应用 BatchNorm 和 ReLU 层。然后，我们将每个阶段的输出上采样为相同大小的特征图，并将这些特征图连接成一个特征图。最后，应用三个 1×1 卷积来预测类别、回归偏移和方向。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。