Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning
@inproceedings{chen2024progressive,
title={Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning},
author={Chen, Shiming and Hou, Wenjin and Khan, Salman and Khan, Fahad Shahbaz},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
pages={23964–23974},
year={2024}
}
代码引用:https://github.com/shiming-chen/ZSLViT
研究背景与动机:
现有问题
视觉特征与语义信息未对齐:
- 传统 ZSL 方法依赖 CNN 或 ViT 提取视觉特征,但这些网络缺乏语义信息的指导,导致视觉特征与语义特征未能有效匹配。
- 视觉特征应该关注与语义相关的部分(如鸟的“喙”或“羽毛颜色”),但 CNN 可能会关注无意义的背景或整个物体,而忽略关键属性。
固定的视觉空间限制了模型的优化能力:
- CNN 预训练后,视觉特征空间基本固定,难以根据新的任务(如 ZSL)进行有效调整。
- 即使加入注意力机制进行属性定位,CNN 仍然难以获得最优的视觉表征,导致模型性能受限。
动机
如何显式发现语义相关的视觉特征
如何去除语义无关的视觉信息(例如无意义的图像背景)
方法概述(核心贡献)
核心思想:
提出了一种渐进式语义引导视觉 Transformer(ZSLViT),该方法能够学习匹配的视觉-语义对应关系,从而构建语义相关的视觉表示,并促进ZS 任务中的有效视觉-语义交互。
引入了语义嵌入 Token 学习(SET)和视觉增强(ViE)机制,分别用于显式发现语义相关的视觉表示和去除语义无关的视觉信息,确保模型关注关键的视觉语义特征。
SET 机制:通过语义引导注意力机制,显式学习与属性相关的视觉区域,并剔除无关的背景信息。
ViE 机制:进一步融合低语义相关性 Token,消除无关特征,确保视觉特征的高质量表示。
核心模块:
语义嵌入 token 学习(SET):增强视觉 token 的语义信息,确保视觉特征与语义特征能够正确匹配。视觉-语义一致性学习和语义嵌入来优化视觉 token,使其更具语义意义
视觉增强(ViE):去除无关的视觉信息(例如背景噪声),提高视觉特征的纯度。通过融合低语义相关性的视觉 token,减少视觉冗余信息,让模型聚焦于关键语义特征。
创新点:
提出一种新型 ViT 骨干网络,在整个网络结构中逐步学习语义相关的视觉特征。
在语义信息指导下优化 ViT,使其能够更有效地进行视觉-语义交互,提升 ZSL 任务中的知识迁移能力。
方法细节
语义嵌入标记学习(SET)
语义增强模块
通过视觉-语义一致性学习和语义嵌入,显式提升视觉特征与语义信息之间的对应关系。
首先基于视觉特征和语义向量进行视觉-语义一致性学习。采用两个多层感知机(MLP)
MLPV→S(Visual → Semantic):将视觉特征映射到语义空间,使视觉特征与语义信息保持一致
MLPS→V(Semantic → Visual):将语义特征映射到视觉空间,确保语义信息能够被视觉特征正确表示。
通过 MLPV→S 和 MLPS→V进行双向映射,可以有效提升视觉和语义特征之间的一致性。
双向映射保证视觉和语义信息的互通性,从而增强 ZSL 任务的视觉-语义交互,提高未见类别的识别能力。
语义重建损失(LSR)
L SR = ∥ z − z ~ ∥ 1 L_{\text{SR}} = \| z - \tilde{z} \|_1 LSR=∥z−z~∥1
该损失函数用于度量原始语义向量 z 与从视觉空间重建的语义向量 z~ 之间的差异。保证视觉特征能准确映射到语义空间,避免信息丢失。
视觉重建损失(LVR)
L VR = ∥ Token [ CLS ] − Token ^ [ CLS ] ∥ 1 L_{\text{VR}} = \| \text{Token}_{[\text{CLS}]} - \hat{\text{Token}}_{[\text{CLS}]} \|_1 LVR=∥Token[CLS]−Token^[CLS]∥1
该损失函数用于度量原始视觉特征 Token[CLS] 与**从语义空间重建的视觉特征 Token1**之间的差异。使语义特征能够映射回视觉空间,确保视觉特征能表达语义信息。
对视觉重建损失LVR赋予更大的权重,增强视觉表示中的语义信息,以支持后续学习。
通过语义嵌入,显式地将语义信息增强到视觉特征中,以实现语义增强。将从语义空间重建的视觉特征与真实的视觉特征 Token[CLS]\进行加权融合:
Token ~ [ CLS ] = γ Token [ CLS ] + ( 1 − γ ) MLP S → V ( z ) \tilde{\text{Token}}_{[\text{CLS}]} = \gamma \text{Token}_{[\text{CLS}]} + (1 - \gamma) \text{MLP}_{S \to V}(z) Token~[CLS]=γToken