【论文阅读】MCTformer: 弱监督语义分割的多类令牌转换器
Multi-class Token Transformer for Weakly Supervised Semantic Segmentation
本文提出了一种新的基于变换的框架来学习类特定对象定位映射作为弱监督语义分割(WSSS)的伪标签
可以利用标准视觉转换器中一个类令牌的参与区域来形成与类无关的定位映射,我们研究了转换器模型是否也可以通过学习转换器中的多个类令牌来有效地捕获特定于类的注意力
提出了一个多类令牌转换器,称为MCTformer,它使用多个类令牌来学习类令牌和补丁令牌之间的交互
提出的MCTformer可以成功地从对应于不同token的类到patch关注生成类判别对象定位映射
我们还建议使用从patch -patch转换器注意力中提取的patch级成对亲和度来进一步细化定位图
提出的框架被证明可以完全补充类激活映射(CAM)方法
一、介绍
弱监督语义分割(WSSS)旨在通过弱监督来减轻对像素级真值标签的依赖
利用弱标签生成高质量的伪分割真值标签
图像级标签可以提供简单的弱标签,其仅指示某些类的存在或不存在定位信息
来自卷积神经网络(CNNs)的对象定位图。尽管使用了复杂的CAM扩展策略或多个训练步骤,但现有方法在定位对象的完整性和准确性方面仍然表现出有限的性能
视觉转换器(ViT)作为第一个专门为计算机视觉设计的转换器模型,最近在多个视觉任务上取得了性能突破
ViT在大规模图像识别方面取得了最先进的性能,这要归功于其强大的远程上下文建模能力
ViT还使用一个额外的cls token来聚合来自整个patch token序列的信息
最近的一项工作DINO揭示了在自监督ViT特征中存在关于图像语义分割的明确信息
在实际工作中我们探究了Class_cls, CNN_cls和Patch_cls的联系,最后选择了Class_cls, CNN_cls
从类标记的注意力图中发现语义场景布局
注意力图在无监督分割任务中产生了有希望的结果
但如何将头部与正确的语义类相关联仍不清楚。也就是说,这些注意力映射仍然是类不可知的

- 在之前的Transformer中,仅使用一个cls_token(红色方块)来聚合来自patch_token(蓝色方块)的信息
- 所提出的MCTformer使用多个类令牌来学习cls_token和patch_token之间的交互。学习的类对不同类标记的注意力进行Patch可以生成类特定的对象定位图
利用Transformer的特定类别注意力是一项挑战
现有的基于转换器的作品有一个共同的问题,即仅使用一个cls_token,这使得在单个图像上准确定位不同对象具有挑战性
存在的问题:
- cls_token设计本质上不可避免地从其他对象类别和背景中捕获上下文信息

本文提出MCTformer,一种利用多类令牌学习类特定对象定位的Transformer框架,解决弱监督语义分割中的定位精度问题,通过类特定注意力和patch-patch亲和度提升定位性能。
最低0.47元/天 解锁文章
109





