3D 语义分割——RPVNet

最新推荐文章于 2025-10-13 08:39:40 发布

原创

最新推荐文章于 2025-10-13 08:39:40 发布 · 2.2k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #计算机视觉

提出一种新的range-point-voxel融合网络RPVNet，它结合了点云的不同视图表示，实现了高效的多视图交互学习。通过门控融合模块自适应地融合特征，有效提升了三维点云分割的性能。

😸RPVNet(ICCV2021) 主要贡献：

设计了一个自适应的 range-point-voxel融合框架，该框架允许不同的视图（views）以更灵活的方式相互增强

提出了一种利用哈希映射（hash mapping）的高效 RPV 交互机制，并将其总结为一个更通用的形式（formulation）以供将来扩展使用

进行了大量的实验来评估 RPVNet 的有效性和效率，该方法在 SemanticKITTI 和 nuScenes 数据集上都达到了 SOTA（2021年）

前言

😿点云通常可以以多种形式（视图）表示，譬如 point-based 的集合、voxel-based 的单元格（cells）或 range-based 的图像。其中，point-based 视图能准确地反映相应的三维结构，但这些点是无序的，很难有效地找到其局部邻居（local neighbors）；voxel-based 视图是规则（regular）而稀疏的，当体素分辨率增加时，其计算量会立方增长；range-based 视图通常是规则且密集的，但球面投影会使相应的物理维度（physical dimensions）发生变形。此外，voxel-based 视图和 range-based 视图都存在量化损失，尤其是体素在面对大规模场景时。

😸为了充分利用不同视图在细粒度分割任务中的优势并缓解各自的不足，论文提出了一种新的 range-point-voxel 融合网络，即 RPVNet。该网络设计了一个三视图之间多信息交互的深度融合框架，并提出了一个可根据并发输入自适应地融合三视图特征的门控融合模块(gated fusion module[GFM])。此外，提出的 RPV 相互作用机制是高效的，且论文作者将其总结为一个更一般的公式（general formulation）。通过利用这种有效的交互和相对较低的体素分辨率，论文的方法也被证明是更有效的。最后，RPVNet 在 SemanticKITTI 和 nuScenes 两个大型数据集上评估了所提出的模型，结果表明该模型在这两个数据集上都达到了 SOTA（2021年）。

在这里插入图片描述

🙀在效率方面，论文提出的高效 RPV 交互机制采用了 hash mapping ，在 voxel branch 上使用分辨率较低的体素和稀疏卷积；在 point branch 上使用与 PVCNN 相似的 MLPs 结构，从而去除了寻找局部邻居的低效性；使用一个高效的 range branch 来减少计算量。

网络结构

😸该网络由 voxel、point 和 range 这三个相互作用的分支构成，且 point 分支是一个包含多个 MLPs 的简单结构，而将一个与 Unet 相似的简单网络应用于 voxel 和 range 分支中。这个 Unet 结构首先使用一个 stem 来从原始输入中提取上下文信息，然后执行四次下采样，最后连接四个上采样阶段以恢复原始点（restore the original points）。RPV 这三个分支的融合分别是在 stem、第 4 次下采样、第 2 次上采样和最后一次上采样之后进行的。其网络结构如下：

在这里插入图片描述

多视图高效交互学习

✍️原始的点云可以转换为不同视图（如：voxel 和 range-images），所以点可以作为中间载体来在这些视图之间建立连接，即任何形式的点云表示都可以看作是原始点云的一种映射。因此，论文通过建立多视图表示索引和多视图特征传播（propagation）来实现高效的多视图交互学习。其中，多视图的统一特征映射和表示可通过索引系统来实现，多视图特征交互和学习可通过特征传播实现。因此，论文提出的 RPVNet 中构建了 range-point-voxel 交互模块。

多视图表示索引：点云 $\in \mathbb{R}^{N \times (3+C)}$ 可通过一些“投影”函数 $\mathcal{P}$ 转化为 $\in \mathbb{R}^{M \times D}$ 。为了构建 $P$ 和 $X$ 之间的关系，可在“投影”函数之后使用一个哈希函数 $\mathcal{H}: \mathbb{R}^{M \times D} \mapsto \mathbb{N}^{M}$ 。

✍️其中， $N$ 代表点的数量，3 代表 xyz 三维坐标， $C$ 代表点的特征通道， $M$ 是 $X$ 中元素的个数， $D$ 是 $X$ 的位置信息维度。此外， $\mathcal{P}$ 是一个“多对一”的映射，而 $\mathcal{H}$ 则是一个“一对一”的映射。

多视图特征传播：在 $X$ 中的元素 $j$ 的特征会受到相关原始点云 $P$ 的影响，且“投影”函数 $\mathcal{P}$ 可以是 non-injection 的，这导致 $j$ 经常受到 $P$ 的多个 keys 的共同影响。将 $j$ 的所有 keys 定义为 $\mathcal{K}_X(j) = \{k, \mathcal{H}(\mathcal{P}(k)) = \mathcal{H}(j) \}$

最低0.47元/天解锁文章