DeFo: Learning to Decompose Visual Features with Latent Textual Prompts

论文提出DeFo_Decomposed Feature Prompting,旨在解决CLIP模型在下游任务中的概念敏感性和表达敏感性问题。DeFo通过可训练的文本嵌入和附加线性层,提取分解的视觉特征,提高准确性与鲁棒性,适用于不同规模的文本输入。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文信息:

Under review as a conference paper at ICLR 2023

Tsinghua University 

arxiv: https://arxiv.org/abs/2210.04287

目录:

Motivation

Method

Trainable Text Embedding

Comparison to existing methods

Experiments

Technical details


Motivation

像 CLIP 这样的预训练视觉语言模型的在学习可迁移视觉表征方面的巨大潜力。但对于下游任务,CLIP 模型在通过检索类名 (ZSL) 进行推理时,会出现以下问题:

1、在基于检索的推理过程中,如果文本描述不准确,准确性和鲁棒性会下降(对文本描述敏感):

这种敏感性可以通过修改类名来观察,比如对于 CIFAR-10 上的 zero-shot 推理,当使用原始类名时,CLIP 获得了 63.7% 的准确率。但是简单地用合适的同义词替换或扩展类名(eg: 用"plane” and “car” rather than “airplane” and “automobile”)可以将准确率提高到

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值