【论文阅读】用于遥感弱监督语义分割的对比标记和标签激活
文章目录
Contrastive Tokens and Label Activation for Remote Sensing Weakly Supervised Semantic Segmentation
弱监督语义分割(WSSS)取得了显著进展,视觉转换器(ViT)架构由于其利用全局注意力进行全面对象信息感知的固有能力,自然适合此类任务
ViT的特性可能会导致过度平滑的问题,特别是在遥感图像的密集场景中,这会显著损害类激活图(CAM)的有效性,并对分割提出挑战
现有的方法往往采用多阶段策略,增加了复杂性并降低了训练效率
提出了一个基于ViT架构的遥感图像WSSS综合框架CTFA(对比token和前景激活)
提出的方法包括一个对比令牌学习模块(CTLM),它结合了patch和class token学习来提高模型性能
在patch学习中,我们利用ViT中间层中保留的语义多样性,从这些层中导出关系矩阵,并使用它来监督最终的输出token,从而提高CAM的质量
确保全局和局部标记之间的表示一致性,从而揭示更多的整个对象区域
此外,通过使用双分支解码器激活生成的伪标签中的前景特征,我们进一步促进了CAM生成的改进
我们的方法在三个成熟的数据集上展示了出色的结果,为WSSS提供了更高效、更精简的解决方案
一、介绍
遥感图像数据蕴藏着大量有价值的信息,需要深入探索。语义分割是计算机视觉中的一项关键任务
然而,一个接一个地注释像素以获得分割标签的过程异常耗时耗力,严重阻碍了其实用性
因此,人们越来越关注植根于图像级监督的弱监督语义分割(WSSS)技术,这是最容易获得的标签
方法通常需要利用分类模型通过类激活图(CAM)生成伪标签,然后将这些伪标签作为基本事实[7]、[8]来训练分割模型
WSSS方法取得了进展,但遥感图像方面的挑战依然存在
包括前景-背景不平衡、大规模变化和多样化的多类别场景
独特的属性对精确估计CAM造成了相当大的障碍,导致分割结果不准确
随着数据集中前景比例的降低,分割性能显著下降。另一方面,目前遥感中的弱监督分割方法往往依赖于复杂的多级训练策略来提高伪分割的精度
这些策略虽然有效,但需要多次培训,从而导致更复杂的流程和更高的培训成本
为了应对概述的挑战,我们提出了一种创新的解决方案,该解决方案利用基于视觉转换器(ViT)的架构进行单级WSSS,提供了一种更高效、更精简的方法。现有研究批评CAM的固有缺陷,因为它通常只识别最具鉴别力的语义区域,从而影响语义分割的整体性能。
现有研究批评CAM的固有缺陷,因为它通常只识别最具鉴别力的语义区域,从而影响语义分割的整体性能
传统的卷积神经网络(CNN)受到其归纳偏差的限制,主要捕捉局部特征,难以揭示对象的整体
基于ViT的模型受益于自我关注策略,自然地建立了全局特征交互,克服了CNN的局限性,并揭示了整个对象区域
增强了全局关系,从而更准确地生成CAM,有助于提高性能。然而,将基于ViT的方法直接应用于遥感数据的WSSS会带来两个具体挑战:
- 过度平滑问题。如图6所示,基线ViT产生的CAM在整个区域表现出均匀激活的趋势,尤其是在拥挤的场景中,这表明存在过度平滑问题
- 前台激活不准确。前景激活的不准确是显而易见的,对象的关键区域没有被准确地高亮显示,前景区域被错误地激活。这种不精确性对WSSS的有效性是有害的。
为了应对这些具体挑战,我们引入了对比令牌学习模块(CTLM)和标签前景激活模块(LFAM)
CTLM的主要目标是突出关键对象区域并抑制过度激活的背景区域,它包括逐块对比度模块和逐类对比度模块

本文提出了一种名为CTFA的方法,通过对比令牌学习模块和标签前景激活模块,解决遥感图像弱监督语义分割中的过度平滑和前景激活问题。该方法利用ViT架构,单级训练,提高了分割性能和效率。
最低0.47元/天 解锁文章
142






