论文标题:Embracing Single Stride 3D Object Detector with Sparse Transformer
源码地址:https://github.com/TuSimple/SST
CVPR2022
文章写得很好!
文章从2d 3d目标检测目标的尺寸的不同入手,在2d目标检测中确实由于图像近大远小的尺寸关系 存在着图像中物体尺寸长尾的问题:

如coco数据集中,大小目标往往是呈现long-tail的分布,于是很多研究者才考虑从不同scale的feature map来进行不同大小的object的预测,而对于3d目标检测来说 物体的尺寸基本是一致的,没有受到近大远小的投影关系的影响。远处的物体仅仅只是点云更加稀疏而已。作者便引出自己的思考:下采样在3d目标检测中是否是必要的呢?
因此 作者便考虑一个没有下采样的检测器,然而设计这个检测器存在着以下的一些问题:
首先设计一个在原尺寸的feature map进行操作的detector是计算量巨大的,其次原尺寸的feature map对于卷积来说往往意味着更小的感受野。
如作者首先在pointpillar上进行了一系列的实验:
对于pointpillar 作者对于backbone的stride进行改进,原来的版本记做D3,依次放大缩小stride 如 从D3到D0的backbone上四层的stride分别是:

因为每一个module都会最终上采样至原来的resolution,所以上述的操作只是对于中间层的feature map的size进行了改进。

该博客介绍了论文《Embracing SingleStride 3D Object Detector with Sparse Transformer》的主要内容。作者探讨了在3D目标检测中去除下采样操作的可能性,并提出Single-Stride Sparse Transformer (SST)网络。通过对比实验,证明了小步距对提升检测性能的重要性,同时使用Transformer解决了小步距带来的感受野限制问题。网络结构结合了体素化、SST模块和全局注意力机制,有效地处理了点云的稀疏性。实验结果显示,SST在Waymo数据集上的表现优秀,尤其是在处理小目标时。此外,文章还讨论了Transformer如何为大物体提供足够的感受野,以及与其他方法的比较。
最低0.47元/天 解锁文章
1518

被折叠的 条评论
为什么被折叠?



