【论文阅读】【3d目标检测】Improving 3D Object Detection with Channel-wise Transformer

最新推荐文章于 2024-11-12 16:42:17 发布

原创

最新推荐文章于 2024-11-12 16:42:17 发布 · 921 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #计算机视觉 #自动驾驶 #神经网络

研究介绍了一种名为CT3D的方法，通过在点云上应用Transformer进行对象检测的改进。论文创新在于将位置编码与特征融合，并提出结合全局和通道局部信息的解码策略。尽管实验显示效果提升有限，但方法强调了对现有单阶段检测器的补充，尤其是在处理局部几何关系时。

标题：Improving 3D Object Detection with Channel-wise Transformer

iccv2021
浙江大学阿里达摩院著名的CT3d
文章是在点上进行transformer，前面的文章曾说过在巨大的点云上进行tranformer计算量是巨大的所以这篇文章玩了点小聪明利用transformer设计refinement net
文章基于利用原始点的特征足够来进行box refinement的假设来进行行文
老规矩上图
在这里插入图片描述
可以看到trans主要是用在了编码和解码的阶段
首先作者利用单阶段网络输出的proposals 对它们进行一个尺寸的扩大具体操作就是将proposal扩展成一个大的圆柱体圆柱体半径为proposal的对角线而高度不限制尺寸在这样的一个圆柱体里我们随机选择256个point进行transformer
在这里插入图片描述
transformer的结构没啥创新主要是作者将位置编码与feature进行了一个较为深度的融合而不是之前工作的pe的简单的相加。

随后进行256个点的叠加得到NXD的特征维度