3D 语义分割——(AF)2-S3Net

最新推荐文章于 2025-10-29 17:13:52 发布

原创

最新推荐文章于 2025-10-29 17:13:52 发布 · 2.5k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #计算机视觉

AF2-S3Net是一种端到端的encoder-decoder网络，专为3D激光雷达语义分割设计。它采用多分支注意力特征融合和自适应特征选择模块，提升对全局上下文和局部细节的捕捉能力，尤其在小物体的细粒度信息处理上表现出色。模型在SemanticKITTI、nuScenes-lidarseg和ModelNet40基准上验证了其优越性能，尤其在semanticKITTI上达到SOTA水平。

文章目录

网络结构

😻(AF)2-S3Net（CVPR2021）主要贡献：

提出一个端到端的 encoder-decoder 3D 稀疏卷积神经网络，其在 semanticKITTI 基准中准确率达到了 SOTA（2021年）

编码器中的多分支注意力特征融合（attentive feature fusion）模块，可以同时学习全局上下文和局部细节

采用自适应特征选择（adaptive feature selection）模块，在解码器中对特征映射重新加权，主动加强了来自特征融合模块的上下文信息，提高了模型的通用性

在 semanticKITTI、nuScenes-lidarseg 和 ModelNet40 三个基准上，通过消融实验、定性和定量结果，综合分析了论文提出的模型与现有方法相比的语义分割和分类性能

😿自动驾驶机器人系统和自动驾驶汽车依赖于对周围环境的准确感知，语义分割是道路场景感知的重要组成部分，它提供了周围环境的语义信息。近年来，激光雷达三维语义分割的方法层出不穷，虽然这些有效地改进了语义分割的性能，但这些方法要么受高计算复杂性的影响（效率低下），要么缺少小物体的细粒度信息。

😸为了解决这些问题，论文提出了一种用于三维激光雷达语义分割的端到端 encoder-decoder 卷积神经网络 (AF)2-S3Net。该网络在编码器中使用了一种新颖的多分支注意力特征融合模块，在解码器中使用了一种独特的自适应特征选择模块（该模块具有特征映射重加权功能）。

😻(AF)2-S3Net 将基于体素的方法和基于点的方法融合到一个统一的框架中，从而有效地处理大型 3D 场景。论文的实验结果表明，该方法在大规模 SemanticKITTI 基准测试中优于最先进的方法，在公开的竞争排行榜中排名第一（2021年）。

网络结构

😸(AF)2-S3Net 由基于残差网络的 backbone、注意力特征融合模块（AF2M）和自适应特征选择模块（AFSM）组成。该模型采用三维激光雷达点云，并将其转化为包含每个点对应坐标和特征的稀疏张量。然后，利用 (AF)2-S3Net 对输入的稀疏张量进行处理，该算法建立在适合稀疏点云的 3D 稀疏卷积运算的基础上（使用 Minkowski Engine），并在激光雷达扫描后有效地预测每个点的类标签。

🙀一个稀疏张量可表示为 $P_s = [C, F]$ ， $\in \mathbb{R}^{N \times M}$ 为 $M$ 维的输入坐标矩阵（input coordinate matrix）， $\in \mathbb{R}^{N \times K}$ 为相应的 $K$ 维特征矩阵（feature matrix）。在本论文中，将点的三维坐标 $(x, y, z)$ 作为稀疏张量 $C$ （即 $M = 3$ ？），而将点的 normal features $n_x, n_y, n_z)$ 和返回的激光束强度 $(i)$ 作为稀疏张量特征 $F$ （即 $K = 4$ ？）。利用 normal features 有助于模型学习额外的方向信息，因而通过区分对象的细微细节（fine details）可以提高模型的性能。

😻以下是 (AF)2-S3Net 的网络结构：

在这里插入图片描述

将点云数据处理成 $p_i \in \mathbb{R}^{d_{in}}, i=1, 2, \cdots, N$ ，其中， $N$ 为点云数量，而 $d_{in}$ 为每个点的特征维度（可包括三维坐标 $(x, y, z)$ 、激光束反射强度 $(i)$ 和颜色 $(R, G, B)$ 等）
将处理后的点云数据输入 AF2M 中，得到输出 $J$ 和特征 $x_1, x_2, x_3]$
将 AF2M 的输出 $J$ 送入残差骨干网络中得到输出 $J^{'}$ ，并将特征 $x_1, x_2, x_3]$

最低0.47元/天解锁文章