Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning

Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning

@inproceedings{chen2024progressive,
title={Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning},
author={Chen, Shiming and Hou, Wenjin and Khan, Salman and Khan, Fahad Shahbaz},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
pages={23964–23974},
year={2024}
}
代码引用:https://github.com/shiming-chen/ZSLViT

研究背景与动机:

现有问题

视觉特征与语义信息未对齐

  • 传统 ZSL 方法依赖 CNN 或 ViT 提取视觉特征,但这些网络缺乏语义信息的指导,导致视觉特征与语义特征未能有效匹配。
  • 视觉特征应该关注与语义相关的部分(如鸟的“喙”或“羽毛颜色”),但 CNN 可能会关注无意义的背景或整个物体,而忽略关键属性。

固定的视觉空间限制了模型的优化能力

  • CNN 预训练后,视觉特征空间基本固定,难以根据新的任务(如 ZSL)进行有效调整。
  • 即使加入注意力机制进行属性定位,CNN 仍然难以获得最优的视觉表征,导致模型性能受限。

动机

​ 如何显式发现语义相关的视觉特征

​ 如何去除语义无关的视觉信息(例如无意义的图像背景)

方法概述(核心贡献)

核心思想

提出了一种渐进式语义引导视觉 Transformer(ZSLViT),该方法能够学习匹配的视觉-语义对应关系,从而构建语义相关的视觉表示,并促进ZS 任务中的有效视觉-语义交互。

引入了语义嵌入 Token 学习(SET)和视觉增强(ViE)机制,分别用于显式发现语义相关的视觉表示去除语义无关的视觉信息,确保模型关注关键的视觉语义特征。

SET 机制:通过语义引导注意力机制,显式学习与属性相关的视觉区域,并剔除无关的背景信息

ViE 机制:进一步融合低语义相关性 Token,消除无关特征,确保视觉特征的高质量表示。

核心模块:

语义嵌入 token 学习(SET):增强视觉 token 的语义信息,确保视觉特征与语义特征能够正确匹配。视觉-语义一致性学习和语义嵌入来优化视觉 token,使其更具语义意义

视觉增强(ViE):去除无关的视觉信息(例如背景噪声),提高视觉特征的纯度。通过融合低语义相关性的视觉 token,减少视觉冗余信息,让模型聚焦于关键语义特征。

创新点:

提出一种新型 ViT 骨干网络,在整个网络结构中逐步学习语义相关的视觉特征

在语义信息指导下优化 ViT,使其能够更有效地进行视觉-语义交互,提升 ZSL 任务中的知识迁移能力。

方法细节

语义嵌入标记学习(SET)
语义增强模块

通过视觉-语义一致性学习和语义嵌入,显式提升视觉特征与语义信息之间的对应关系。

首先基于视觉特征和语义向量进行视觉-语义一致性学习。采用两个多层感知机(MLP)

MLPV→S(Visual → Semantic):将视觉特征映射到语义空间,使视觉特征与语义信息保持一致

MLPS→V(Semantic → Visual):将语义特征映射到视觉空间,确保语义信息能够被视觉特征正确表示。

通过 MLPV→S 和 MLPS→V进行双向映射,可以有效提升视觉和语义特征之间的一致性。

双向映射保证视觉和语义信息的互通性,从而增强 ZSL 任务的视觉-语义交互,提高未见类别的识别能力。

语义重建损失(LSR)

L SR = ∥ z − z ~ ∥ 1 L_{\text{SR}} = \| z - \tilde{z} \|_1 LSR=zz~1

​ 该损失函数用于度量原始语义向量 z 与从视觉空间重建的语义向量 z~ 之间的差异。保证视觉特征能准确映射到语义空间,避免信息丢失。

视觉重建损失(LVR)

L VR = ∥ Token [ CLS ] − Token ^ [ CLS ] ∥ 1 L_{\text{VR}} = \| \text{Token}_{[\text{CLS}]} - \hat{\text{Token}}_{[\text{CLS}]} \|_1 LVR=Token[CLS]Token^[CLS]1

​ 该损失函数用于度量原始视觉特征 Token[CLS] 与**从语义空间重建的视觉特征 Token1**之间的差异。使语义特征能够映射回视觉空间,确保视觉特征能表达语义信息。

对视觉重建损失LVR赋予更大的权重,增强视觉表示中的语义信息,以支持后续学习。

通过语义嵌入,显式地将语义信息增强到视觉特征中,以实现语义增强。将从语义空间重建的视觉特征与真实的视觉特征 Token[CLS]\进行加权融合:
Token ~ [ CLS ] = γ Token [ CLS ] + ( 1 − γ ) MLP S → V ( z ) \tilde{\text{Token}}_{[\text{CLS}]} = \gamma \text{Token}_{[\text{CLS}]} + (1 - \gamma) \text{MLP}_{S \to V}(z) Token~[CLS]=γToken

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

丨樱珏丨

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值