Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models

本文提出了一种新的面向任务的多模态交互学习方法,通过类别感知文本提示(CTP)和文本引导特征调优(TFT)增强预训练的视语模型,提升了其在下游任务的泛化性能。CTP利用图像信息生成更精确的提示,TFT则引导图像特征关注任务相关区域,两者结合避免了学习歧义,提高了未知类别的分类精度。实验结果显示,与现有方法相比,本文的方法在11个分类基准上实现了性能提升。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

Abstract

Instruction

Related work

Method

Task-Oriented Mutual Learning Method

Class-aware Text Prompts (CTP) 

Text-guided Feature Tuning (TFT)

Augmented contrastive loss function

Experiment

Details

Generalization From Base to New Classes

Few-Shot Classification

Cross-Dataset Transfer

Domain Generalization 

Ablation Analysis

Effectiveness of each module

Comparison of different structure design of multi-modal mutual learning.

Sensitivity Analysis of λ

Conclusion


Abstract

Prompt learning 已成为使大型预训练视语模型适应下游任务最有效范例之一。目前最先进的方法,如CoOp和ProDA,倾向于采用软提示(soft prompt)来为每个特定任务学习适当的提示。最近的CoCoOp通过image-conditional prompt进一步提高了base-to-new的泛化性能。然而实验表明:它直接将相同的图像语义融合到不同标签的提示中,并显著削弱了不同类别之间的区分。

回顾之前的方法:

CLIP:

它做 zero-shot 时的 prompt 形式为 "a photo of a [CLASS]." 其中[CLASS]被替换为具体的class label。做推理的时候:K个类别的prompt通过text encoder生成K个文本特征 t,来一张图片则经过image encoder生成特征 f,然后计算 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值