【论文阅读】【三维语义分割】RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds

本文链接：https://blog.youkuaiyun.com/wqwqqwqw1231/article/details/105604389

本文提出了RandLA-Net，一种针对大点云的实时语义分割方法，采用随机采样降低运算时间，并通过局部特征聚合模块（LocSE、Attentive Pooling、Dilated Residual Block）有效提取特征。实验显示，该方法在Semantic3D和SemanticKITTI上达到SOTA，证明了随机采样在特征提取有效性前提下可替代FPS。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2020CVPR
牛津大学

本文提出了针对大场景语义分割的一种方法，主要提出了使用random sampling来进行降采样从而降低运算时间，通过提出的Local Feature Aggregation Module来确保局部特征能够被提取出来，减小random sampling的不利影响。

RandLA-Net

Motivation

本文主要是对大场景，但其实应该是针对点云中包含很多点，例如50k个点这样，因为大场景无非是一个尺度问题，但点云的规模则直接关系到计算的速度和存储空间消耗。以下我们就对包含点很多的点云称为大点云。（自己瞎起个名字）

首先作者提出了目前制约对大点云的实时语义分割的因素有以下三点：
1）目前Point-sampling的方法要么费时，要么费内存，对于大点云来说，都是不可接受的。
2）大多数的方法是使用kernelisation or graph construction的方法提取局部特征。但我本人认为这个说法不太成立，因为作者在之前也说了对局部特征提取特征的方法除了上述两种还有neighbouring feature pooling ，也就是Pointnet++类型和attention-based aggregation。而我认为本文就是用了graph construction和attention-based aggregation这两种方法。
3）对于通常由数百个目标组成的大规模点云，现有的局部特征学习者要么无法捕获复杂的结构，要么由于其感受野的大小有限而效率低下。这个其实我也不太理解，我只能说，本文提出的Local Feature Aggregation Module在结果上来看确实很优秀，但说目前的方法具备上述两者缺陷其一，我不太赞同。

Sampling

作者对比了其他几种sampling的方法，包括：FPS，IDIS，GS，CRS，PGS。这里我就不详细说明这几种采样方法的具体操作方式了，作者在原文中已经写得很清楚了。但其实，常用的也就是FPS。

那么想比于上述方法，Random Sampling具有很好的实时性，作者也对此进行了验证。其他方法，要么速度慢，要么占内存，通过学习的方法则对于大点云不收敛，反正各有各的问题。那么具体的对比如下图：
在这里插入图片描述

但Random Sampling的问题在于，本身大量的点就集中在离LiDAR近的区域，远处的区域稀疏。通过sampling，由于是random的，比例是一样的，那么远处的就更稀疏了，没准那次就丢掉了边缘的点。而FPS则是能够最好的覆盖整个区域，所以相比random sampling，FPS确实更适合语义分割这个问题。但本文追求的是快啊，那么如何才能弥补RS这个缺点呢？那就是增大每个点的感受野，使得在sampling过后，保留下来的点有足够大的感受野，能够包含丢掉的点的信息，即使是在远处点很稀疏的情况下。