Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning

原创

已于 2025-04-01 15:38:09 修改

· 992 阅读

·

13

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#transformer #深度学习 #人工智能 #pytorch #图像处理

于 2025-03-20 11:17:44 首次发布

Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning

@inproceedings{chen2024progressive,
title={Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning},
author={Chen, Shiming and Hou, Wenjin and Khan, Salman and Khan, Fahad Shahbaz},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
pages={23964–23974},
year={2024}
}
代码引用：https://github.com/shiming-chen/ZSLViT

研究背景与动机：

现有问题

视觉特征与语义信息未对齐：

传统 ZSL 方法依赖 CNN 或 ViT 提取视觉特征，但这些网络缺乏语义信息的指导，导致视觉特征与语义特征未能有效匹配。
视觉特征应该关注与语义相关的部分（如鸟的“喙”或“羽毛颜色”），但 CNN 可能会关注无意义的背景或整个物体，而忽略关键属性。

固定的视觉空间限制了模型的优化能力：

CNN 预训练后，视觉特征空间基本固定，难以根据新的任务（如 ZSL）进行有效调整。
即使加入注意力机制进行属性定位，CNN 仍然难以获得最优的视觉表征，导致模型性能受限。

动机

如何显式发现语义相关的视觉特征

如何去除语义无关的视觉信息（例如无意义的图像背景）

方法概述（核心贡献）

核心思想：

提出了一种渐进式语义引导视觉 Transformer（ZSLViT），该方法能够学习匹配的视觉-语义对应关系，从而构建语义相关的视觉表示，并促进ZS 任务中的有效视觉-语义交互。

引入了语义嵌入 Token 学习（SET）和视觉增强（ViE）机制，分别用于显式发现语义相关的视觉表示和去除语义无关的视觉信息，确保模型关注关键的视觉语义特征。

SET 机制：通过语义引导注意力机制，显式学习与属性相关的视觉区域，并剔除无关的背景信息。

ViE 机制：进一步融合低语义相关性 Token，消除无关特征，确保视觉特征的高质量表示。

核心模块：

语义嵌入 token 学习(SET)：增强视觉 token 的语义信息，确保视觉特征与语义特征能够正确匹配。视觉-语义一致性学习和语义嵌入来优化视觉 token，使其更具语义意义

视觉增强(ViE)：去除无关的视觉信息（例如背景噪声），提高视觉特征的纯度。通过融合低语义相关性的视觉 token，减少视觉冗余信息，让模型聚焦于关键语义特征。

创新点：

提出一种新型 ViT 骨干网络，在整个网络结构中逐步学习语义相关的视觉特征。

在语义信息指导下优化 ViT，使其能够更有效地进行视觉-语义交互，提升 ZSL 任务中的知识迁移能力。

方法细节

语义嵌入标记学习(SET)

语义增强模块

通过视觉-语义一致性学习和语义嵌入，显式提升视觉特征与语义信息之间的对应关系。

首先基于视觉特征和语义向量进行视觉-语义一致性学习。采用两个多层感知机(MLP)

MLPV→S（Visual → Semantic）：将视觉特征映射到语义空间，使视觉特征与语义信息保持一致

MLPS→V（Semantic → Visual）：将语义特征映射到视觉空间，确保语义信息能够被视觉特征正确表示。

通过 MLPV→S 和 MLPS→V进行双向映射，可以有效提升视觉和语义特征之间的一致性。

双向映射保证视觉和语义信息的互通性，从而增强 ZSL 任务的视觉-语义交互，提高未见类别的识别能力。

语义重建损失(LSR)

$L_{\text{SR}} = \| z - \tilde{z} \|_1$

该损失函数用于度量原始语义向量 z 与从视觉空间重建的语义向量 z~ 之间的差异。保证视觉特征能准确映射到语义空间，避免信息丢失。

视觉重建损失(LVR)

$L_{\text{VR}} = \| \text{Token}_{[\text{CLS}]} - \hat{\text{Token}}_{[\text{CLS}]} \|_1$

该损失函数用于度量原始视觉特征 Token[CLS] 与**从语义空间重建的视觉特征 Token¹**之间的差异。使语义特征能够映射回视觉空间，确保视觉特征能表达语义信息。

对视觉重建损失LVR赋予更大的权重，增强视觉表示中的语义信息，以支持后续学习。

通过语义嵌入，显式地将语义信息增强到视觉特征中，以实现语义增强。将从语义空间重建的视觉特征与真实的视觉特征 Token[CLS]\进行加权融合：
$\tilde{\text{Token}}_{[\text{CLS}]} = \gamma \text{Token}_{[\text{CLS}]} + (1 - \gamma) \text{MLP}_{S \to V}(z)$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

丨樱珏丨 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。