VoteNet: Deep Hough Voting for 3D Object Detection in Point Clouds 论文笔记

最新推荐文章于 2025-11-12 01:24:28 发布

原创最新推荐文章于 2025-11-12 01:24:28 发布 · 1.5k 阅读

8 ·

CC 4.0 BY-SA版权

语义 SLAM 专栏收录该内容

11 篇文章

订阅专栏

Votenet，一种全新的3D点云目标检测方法，由Facebook AI Research和斯坦福大学联合发布，彻底改变了传统依赖2D检测器的3D检测流程。通过引入霍夫投票机制，Votenet能够直接处理原始点云数据，生成更精确的目标提议，不仅提高了检测精度，还减少了对计算资源的需求。

部署运行你感兴趣的模型镜像

Facebook AI Research ,Stanford University, 22 Aug 2019, Kaiming He1 ,3D点云检测网络

个人观点：

Voting by Grouping Dependent Parts，ECCV 10

Combined object categorization and segmentation with an implicit shape model. In Workshop on statistical learning in computer vision, ECCV, volume 2, page 7, 2004. 1

Robust object detection with inter leaved categorization and segmentation. International journal of computer vision, 77(13):259–289, 2008. 2, 3

旧的方法引入到新的技术中也可以带来新的进展，不能以为有了可以train的CNN，一些基础的知识就可以不学了，基础知识没学，CNN也设计不出来

kaiming大佬的成果，直接否定了原来 leverage 2D dectectors 的思路，而是重新设计了一种利用raw point cloud data的方式来做，既不依赖于2D检测器的性能，也不会出现为了照顾计算量导致的细节数据丢失。那么为什么原来直接利用点云的方法没有得到如此高的精度呢？论文认为这是由于以往的方法没有根据点云的天生特点来进行设计，而是直接照搬2D的流程：提特征然后加RPN。但是点云不同于稠密的图像像素，在3D情况下目标中心附近一般没有点云，因为点云只存在于目标的表面。增大感受野可以将距离目标中心的较近的点考虑进来，但是也会引入其他目标表面的点，因此结果往往都不尽如人意。

而论文提出的霍夫投票，将位于目标表面的点云用投票生成的更加接近中心的vote点来代替，这样再进行提议生成就能很好的解决之前的问题。

从本质上直接解决了点云检测的固有问题，抛弃了依赖2D检测器或者2D流程的所有思路，真的强

论文总结

目前的3D检测严重依赖于2D的方法。主要有以下两种：

把3D点云转换为规则的网格（voxel grids 或者鸟瞰图）
在2D图像上做检测然后作为3D的提议

本文致力于提出一个泛化的pipeline（ as generic as possible）完成点云目标检测的任务，即Votenet，克服了3D目标的中心远离其表面的点因而很难在一步内完成准确的回归的问题。

数据集：ScanNet ， SUNRGBD，在使用几何信息而没有使用有RGB信息的前提下，仍然达到了SOTA

论文介绍&相关工作

介绍了之前的一些代表性工作，都是依赖于2D检测器的网络。体素化或者网格化导致信息细节丢失，而2D区域提议则将漏检所有2D检测器漏检的目标。

本文提出的网络则直接基于点云数据，不依赖于任何2D检测器（基于Point net++）

（大家都默认Pointnet++在3D检测中的地位和ResNet在2D检测中的地位相同了）

尽管Point net ++在3D分类和分割任务中取得了很大的成功，但是很少有人研究如何在3D检测中利用好它，一种Naive的思想是根据2D检测的流程，在Point net++的输出特征后面接一个RPN，得到目标框。然而点云的稀疏性导致结果不尽如人意，这里是有问题的：

在图像中目标中心都是有像素存在的
在3D情况下目标中心附近一般没有点云，因为点云只存在于目标的表面

因此，基于点云的网络很难在目标中心附近学习场景的上下文。

此外作者指出盲目增加感受野是没有效果的，只会把更多的目标中心点纳入到计算来

基于此，论文方法提出了vote机制，生成新的处于目标中心点的点云，来作为box proposals

综上，本文贡献：

在深度学习中引入Hough Vote机制，设计了一个可以端到端训练的模型，VoteNet
在两大数据集上的达到SOTA
深入分析了vote在点云三维目标检测中的重要性。

Deep Hough Voting

传统的Hough vote2D检测器：

包括离线和在线步骤。首先，在给定带注释对象边界框的图像集合的情况下，使用图像块（或其特征）与其到相应对象中心的偏移之间的存储映射来构造码本。在推断时，interest points是从图像中选择出来的，然后根据interest points 提取 patches。将这些patches与代码簿中的patches进行比较，以检索偏移量并计算投票。由于对象patches倾向于一致投票，cluster将在对象中心附近形成。最后，通过将cluster投票回溯到其生成的patches来检索目标边界。