4D 语义分割——SpSequenceNet

最新推荐文章于 2024-10-17 07:31:09 发布

原创

最新推荐文章于 2024-10-17 07:31:09 发布 · 1.4k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #计算机视觉 #深度学习 #语义分割

SpSequenceNet是一种专为4D点云设计的语义分割网络，利用跨帧全局注意力和跨帧局部插值模块，有效捕捉时空信息，显著提升分割效果。在SemanticKITTI数据集上取得43.1% mIoU的成绩。

😸SpSequenceNet(CVPR2020) 主要贡献：

设计一个捕获 4D 点云（3D 点云的视频）的时空信息来进行语义分割的网络 SpSequenceNet

引入跨帧全局注意力（CGA）模块，从先前的点云帧生成一个全局掩码，并将生成的掩码用于当前点云帧的语义分割

提出了跨帧局部插值（CLI）模块来融合两个点云帧之间的信息，它将时空信息结合起来并提高了语义分割的质量

在 SemanticKITTI 上达到了 SOTA，比现有方法高出1.5%（2020年）

前言

🙀点云在自动驾驶和机器人等许多应用场景中都很有用，因为点云提供了周围环境的 3D 信息。虽然对三维点云的研究已经很广泛，但对 4D 点云的场景理解是一个新兴的课题，其研究还不够深入。有了 4D 点云，机器人系统可以通过利用前一帧的时间信息来增强其鲁棒性。然而，现有的 4D 点云语义分割方法由于网络结构中存在时空信息的丢失，导致分割精度不高。

😸基于上述问题，论文提出了 SpSequenceNet 来解决。该网络是基于三维稀疏卷积设计的，其包含了跨帧全局注意力模块和跨帧局部插值模块这两个新颖的模块，用于捕获 4D 点云中的时空信息。该网络在 SemanticKITTI 上进行了大量的实验，其 mIoU 达到了 43.1%，比之前最佳的方法提高了 1.5%。

在这里插入图片描述

网络结构

😸该网络采用基于体素的方法，其预测标签 $p_{i, t}$ 是通过处理输入的点云帧 $P_t$ 和 $P_{t-1}$ 来实现的，其网络设计遵循 U-net 的风格且通过SSCN 来实现。为了平衡训练和推理的速度和性能，论文对 backbone 做了一些修改。具体来说，在原始版本的 SSCN 中，有 7 个包含跳连接（skip paths）到反卷积块的编码器块，这形成了一个对称的结构。然而，对称设计也存在一些缺点，譬如表示能力有限且浪费了大量计算资源。因此，论文减少了跳连接的数量。此外，在编码器中增加了一些用来提高表示能力并调整网络的块，而解码器是流线型的（streamlined）。

😸在构建了模型之后，下一步需要构建那些可以融合来自不同帧信息的块。在编码器阶段，网络接收具有两个不同分支的点云帧 $P_t$ 和 $P_{t-1}$ 。为了构建更好的融合特征，论文将信息定义为全局信息和局部信息两部分。首先，针对全局信息设计了跨帧全局注意力模块，该模块可对特征进行选择，使 backbone 更加关注关键特征。其次，跨帧局部插值模块主要关注局部信息，用于融合编码器末端 $P_{t-1}$ 和 $P_t$ 的信息。SpSequenceNet 的网络结构如下所示，黄色块为基础神经网络块，灰色块是跨帧全局注意力模块 CGA，红色块为跨帧局部插值模块 CLI，蓝色块为解码器模块：

在这里插入图片描述

跨帧全局注意力模块

😸受自注意机制的启发，论文设计了 CGA 模块，该模块可提取时间维度上的全局语义信息，并为当前帧 $P_t$ 生成一个汇总（concludes）了 $P_{t-1}$ 特征的外观（appearance）信息的掩码。为了突出当前点云帧的特征 $F_t$ 的关键部分并抑制无关特征，CGA 模块使用 $t - 1$ 的外观信息来引导模型。此外，全局语义分布到每个层级的特性中，论文选择与跳连接有关的层，并只对这些层应用 CGA，这降低了计算复杂度并提高了计算精度。下图是 CGA 的简单例子和结构：