A deep learning method for optimizing semantic segmentation accuracy of remote sensing images based on improved UNet,2023,Q1
摘要
遥感图像 (RSI) 的语义分割在许多领域都至关重要,因为 RSI 包含不同的景观和不同大小的地理对象,这使得语义分割具有挑战性。本文提出了一种称为自适应特征融合UNet(AFF-UNet)的卷积网络来优化语义分割性能。该模型具有三个关键方面:(1)密集跳跃连接架构和自适应特征融合模块,自适应地权衡不同级别的特征图以实现自适应特征融合,(2)通道注意卷积块,使用定制配置获取不同通道之间的关系,(3)获得不同位置之间关系的空间注意模块。 AFF-UNet 在两个公共 RSI 数据集上进行了评估,并与其他模型进行了定量和定性比较。 Potsdam数据集的结果表明,所提出的模型在平均F1分数方面比DeepLabv3+提高了1.09%,在总体精度方面提高了0.99%。视觉定性结果还证明了对象类混乱的减少、分割不同大小的对象类的更好性能以及更好的对象完整性。因此,所提出的AFF-UNet模型优化了RSI语义分割的准确性。
引入
随着一些创新作品(即Relu、Dropout 、Batch Norm和ResNet)的应用,卷积神经网络(CNN)在计算机视觉领域取得了很大的成功。 CNN逐渐应用于RSI语义分割任务中,以提高对象提取的准确性。基于 CNN 的分割模型通常使用堆叠卷积和池化操作来获取语义表示,并通过上采样来恢复图像大小。基于 CNN 的语义分割模型中常用的设计是编码器-解码器结构。编码器-解码器结构应用于RSI任务面临的挑战:(1)RSI上的对象大小不同,算法需要同时考虑它们的分割精度; (2)RSI覆盖范围大,存在多个易混淆的地质物体。
具体来说,在RSI语义分割中,小尺寸物体和大尺寸物体通常存在于一个patch中,模型需要同时分割不同尺寸的物体。这就要求模型具备强大的上下文聚合能力和多尺度特征的处理能力。而不同大小的对象的语义信息存在于模型的不同层次中,如果直接融合不同级别的特征可能会导致不同大小的对象的语义信息之间产生负面干扰。一个潜在的解决方案是使用注意力机制,使模型在特征融合时根据输入图像的内容自动选择要关注的特征层次。
另一个问题是RSI 中混淆对象类别的存在要求分割模型必须能够学习准确的特征表示。语义分割结果是通过将大区域视为一个整体来生成的,而不是对每个像素进行精确分类。因此,不准确的特征表示可能会导致严重的错误分割。为了获得混淆对象类的准确特征表示,通常使用注意机制来克服神经网络中局部依赖性的限制。注意力机制可以从通道和位置方面考虑特征的关系,并生成注意力权重图来选择性地抑制或增强特征。
贡献
• 提出DSC结构和AFAM来融合不同级别的特征,这可以获得不同级别特征块的相关性,以改善不同大小的对象类(例如建筑物和车辆类)的分割。
• 应用CACB和SAM来提高混淆对象类(例如背景类和非背景类)的准确性和对象的完整性(特别是Potsdam数据集中建筑物的分割)。
• 通过定量和定性实验验证了所提出模型的有效性。
方法
AFF-UNet语义分割模型结构如下图所示。
包括三个部分:
1.密集跳跃连接(DSC)和自适应融合注意力模块(AFAM)的设计使模型具有更强的上下文聚合能力,并且在融合过程中可以自适应地强调或抑制不同级别的特征块而不是特征通道;
2.应用通道注意力卷积块(CACB)获取不同通道之间的关系;
3.应用空间注意力模块(SAM)来获得不同位置之间的关系。
1、编码器中第一、二、三、四层的特征图通过密集连接结构(DSC)直接连接到解码器中的自适应融合注意模块(AFAM)(由特征流1、特征流2、特征流 3、特征流4组成)。
2、自适应融合注意模块(AFAM)的输入来自编码器和解码器特征图。该模块主要执行特征图融合,并对输入的五个特征图块分配权重,以改善不同大小类别的分割。
3、通道注意力卷积块(CACB)改变特征图的大小,但会改变特征图中的通道数。本文模型的输入为3或4通道,编码器的通道变化如下:3或4通道、64通道、128通道、256通道、512通道、1024通道,同时伴随着特征图尺寸的减小。解码器的通道变化为512通道、256通道、128通道、64通道,同时伴随着特征图尺寸的增加。
4、空间注意力模块(SAM)放置在编码器和解码器的中间,它不会改变特征图中的大小或通道。它主要关注特征图的位置信息。
- DSC 架构和 AFAM
DSC 由于很难预测模型要聚合哪些上下文信息更有利于提高模型的准确性。因此,我们使用DSC使模型具有在任何阶段融合上下文信息的潜力。然后,让模型自动选择 AFAM 应“更加关注”哪些级别的信息, AFAM结构如图所示。与原始 UNet 中的稀疏跳跃连接不同,DSC 使编码器的四级特征图能够直接嵌入到解码器的每个阶段。
AFAM 1.合理分配特征块权重:同一级别的特征图具有一定的共性(例如,它们具有相同的深度和相同的理论感受野)。 AFAM可以学习不同层次特征块的相关性并分配权重。2. 减少DSC引起的信息冗余:与稀疏的跳过连接相比,DSC可能具有冗余信息。 AFAM 可以通过自动为不同级别的特征分配权重来处理可能的冗余。
- 通道注意力卷积块(CACB)
CACB包含两组组合(卷积、批量归一化、Relu激活)操作和SE操作。AFAM 和 SE 操作的区别在于 SE 为每个特征通道分配权重,而 AFAM 为不同级别的特征块分配权重。 CACB可以自动获取每个特征通道对于分割的重要性,然后选择增强或抑制每个特征通道。 - 空间注意力模块(SAM)
实验及结果分析
- 实验数据集
1、ISPRS Potsdam Dataset (https://www.isprs.org/education/bench marks/UrbanSemLab/2d-sem-label-potsdam.aspx)
2、CCF BDCI 2020 Dataset (https://www.datafountain.cn/ competitions/475)
- 评价指标
- 消融实验
- 两个数据集上的定量分析
总结
提出了 AFF-UNet,它在处理 RSI 中对象类之间的混淆以及不同大小的对象类(特别是建筑物和车辆)的分割方面表现出更好的性能。为了实现这一点,我们利用定制的 CACB 来获取通道之间的关系。我们使用 DSC 结构和 AFAM 进行上下文聚合并获得不同级别的特征块之间的关系。此外,我们利用SAM通过获取不同位置之间的关系来进一步提高分割精度。 AFF-UNet 在两个数据集上进行了评估,与其他模型相比,它在以下方面表现出改进:(1)对象类的混淆; (2)对于不同大小的对象类取得更好的分割结果; (3)提高对象类的完整性。我们提出的模型有潜力优化二元分类任务,例如提取车辆或建筑物。然而,RSI 分割数据集中的类别不平衡通常会对性能产生负面影响,解决这个问题将是未来工作的重点。