标题:Improving 3D Object Detection with Channel-wise Transformer
iccv2021
浙江大学 阿里达摩院 著名的CT3d
文章是在点上进行transformer,前面的文章曾说过在巨大的点云上进行tranformer计算量是巨大的 所以这篇文章玩了点小聪明 利用transformer设计refinement net
文章基于利用原始点的特征足够来进行box refinement的假设来进行行文
老规矩 上图

可以看到trans主要是用在了编码和解码的阶段
首先作者利用单阶段网络输出的proposals 对它们进行一个尺寸的扩大 具体操作就是将proposal扩展成一个大的圆柱体 圆柱体半径为proposal的对角线 而高度不限制尺寸 在这样的一个圆柱体里 我们随机选择256个point进行transformer

transformer的结构没啥创新 主要是作者将位置编码与feature进行了一个较为深度的融合 而不是之前工作的pe的简单的相加。

随后进行256个点的叠加 得到NXD的特征维度
下面是全文的重点 :

研究介绍了一种名为CT3D的方法,通过在点云上应用Transformer进行对象检测的改进。论文创新在于将位置编码与特征融合,并提出结合全局和通道局部信息的解码策略。尽管实验显示效果提升有限,但方法强调了对现有单阶段检测器的补充,尤其是在处理局部几何关系时。
最低0.47元/天 解锁文章
2635





