目录
Task-Oriented Mutual Learning Method
Class-aware Text Prompts (CTP)
Text-guided Feature Tuning (TFT)
Augmented contrastive loss function
Generalization From Base to New Classes
Comparison of different structure design of multi-modal mutual learning.
Abstract
Prompt learning 已成为使大型预训练视语模型适应下游任务最有效范例之一。目前最先进的方法,如CoOp和ProDA,倾向于采用软提示(soft prompt)来为每个特定任务学习适当的提示。最近的CoCoOp通过image-conditional prompt进一步提高了base-to-new的泛化性能。然而实验表明:它直接将相同的图像语义融合到不同标签的提示中,并显著削弱了不同类别之间的区分。
回顾之前的方法:
CLIP:
它做 zero-shot 时的 prompt 形式为 "a photo of a [CLASS]." 其中[CLASS]被替换为具体的class label。做推理的时候:K个类别的prompt通过text encoder生成K个文本特征 t,来一张图片则经过image encoder生成特征 f,然后计算 f