文章目录
😻(AF)2-S3Net(CVPR2021) 主要贡献:
- 提出一个端到端的 encoder-decoder 3D 稀疏卷积神经网络,其在 semanticKITTI 基准中准确率达到了 SOTA(
2021年)- 编码器中的多分支注意力特征融合(attentive feature fusion)模块,可以同时学习全局上下文和局部细节
- 采用自适应特征选择(adaptive feature selection)模块,在解码器中对特征映射重新加权,主动加强了来自特征融合模块的上下文信息,提高了模型的通用性
- 在 semanticKITTI、nuScenes-lidarseg 和 ModelNet40 三个基准上,通过消融实验、定性和定量结果,综合分析了论文提出的模型与现有方法相比的语义分割和分类性能
😿自动驾驶机器人系统和自动驾驶汽车依赖于对周围环境的准确感知,语义分割是道路场景感知的重要组成部分,它提供了周围环境的语义信息。近年来,激光雷达三维语义分割的方法层出不穷,虽然这些有效地改进了语义分割的性能,但这些方法要么受高计算复杂性的影响(效率低下),要么缺少小物体的细粒度信息。
😸为了解决这些问题,论文提出了一种用于三维激光雷达语义分割的端到端 encoder-decoder 卷积神经网络 (AF)2-S3Net。该网络在编码器中使用了一种新颖的多分支注意力特征融合模块,在解码器中使用了一种独特的自适应特征选择模块(该模块具有特征映射重加权功能)。
😻(AF)2-S3Net 将基于体素的方法和基于点的方法融合到一个统一的框架中,从而有效地处理大型 3D 场景。论文的实验结果表明,该方法在大规模 SemanticKITTI 基准测试中优于最先进的方法,在公开的竞争排行榜中排名第一(2021年)。
网络结构
😸(AF)2-S3Net 由基于残差网络的 backbone、注意力特征融合模块(AF2M)和自适应特征选择模块(AFSM)组成。该模型采用三维激光雷达点云,并将其转化为包含每个点对应坐标和特征的稀疏张量。然后,利用 (AF)2-S3Net 对输入的稀疏张量进行处理,该算法建立在适合稀疏点云的 3D 稀疏卷积运算的基础上(使用 Minkowski Engine),并在激光雷达扫描后有效地预测每个点的类标签。
🙀一个稀疏张量可表示为 P s = [ C , F ] P_s = [C, F] Ps=[C,F], C ∈ R N × M C \in \mathbb{R}^{N \times M} C∈RN×M 为 M M M 维的输入坐标矩阵(input coordinate matrix), F ∈ R N × K F \in \mathbb{R}^{N \times K} F∈RN×K 为相应的 K K K 维特征矩阵(feature matrix)。在本论文中,将点的三维坐标 ( x , y , z ) (x, y, z) (x,y,z) 作为稀疏张量 C C C(即 M = 3 M=3 M=3?),而将点的 normal features ( n x , n y , n z ) (n_x, n_y, n_z) (nx,ny,nz) 和返回的激光束强度 ( i ) (i) (i) 作为稀疏张量特征 F F F(即 K = 4 K=4 K=4?)。利用 normal features 有助于模型学习额外的方向信息,因而通过区分对象的细微细节(fine details)可以提高模型的性能。
😻以下是 (AF)2-S3Net 的网络结构:

- 将点云数据处理成 p i ∈ R d i n , i = 1 , 2 , ⋯ , N p_i \in \mathbb{R}^{d_{in}}, i=1, 2, \cdots, N pi∈Rdin,i=1,2,⋯,N,其中, N N N 为点云数量,而 d i n d_{in} din 为每个点的特征维度(可包括三维坐标 ( x , y , z ) (x, y, z) (x,y,z)、激光束反射强度 ( i ) (i) (i) 和颜色 ( R , G , B ) (R, G, B) (R,G,B) 等)
- 将处理后的点云数据输入 AF2M 中,得到输出 J J J 和特征 [ x 1 , x 2 , x 3 ] [x_1, x_2, x_3] [x1,x2,x3]
- 将 AF2M 的输出 J J J 送入残差骨干网络中得到输出 J ′ J^{'} J′,并将特征 [ x 1 , x 2 , x 3 ] [x_1, x_2, x_3] [x

AF2-S3Net是一种端到端的encoder-decoder网络,专为3D激光雷达语义分割设计。它采用多分支注意力特征融合和自适应特征选择模块,提升对全局上下文和局部细节的捕捉能力,尤其在小物体的细粒度信息处理上表现出色。模型在SemanticKITTI、nuScenes-lidarseg和ModelNet40基准上验证了其优越性能,尤其在semanticKITTI上达到SOTA水平。
最低0.47元/天 解锁文章
2155

被折叠的 条评论
为什么被折叠?



