
提示学习
文章平均质量分 88
一个很菜的小猪
欢迎来到我的博客
努力坚持更新中…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【提示学习论文】Learning to Adapt Category Consistent Meta-Feature of CLIP for Few-Shot Classification
问题:现有方法CoOp/Tip-Adapter只关注(与文本特征对齐的)高层次视觉特征。few-shot目标:通过少量的标记样本,对同类别的unseen image 进行分类。作者发现与高层次表示不同,低层次的局部表示在seen和unseen中更加一致。基于这一点,提出了MF-Adapter,结合了局部表示LRs(local representations)和高层次语义表示。特别地,引入了MF unit 元特征单元,一个简单高效的单元,进行局部相似性度量,以归纳的方式衡量类别一致的局部上下文。原创 2024-10-24 17:58:57 · 984 阅读 · 0 评论 -
【提示学习论文】CoCoLe:Conceptual Codebook Learning for Vision-Language Models
对CPL的改进原创 2024-08-28 23:34:13 · 855 阅读 · 1 评论 -
【提示学习论文】KDPL:Improving Zero-shot Generalization of Learned Prompts via Unsupervised Knowledge Distil
给定一个图像批次X=Ii N,和所有类别名称C,使用教师模型对所有图像和词汇表中的所有类别(20k)进行推理,得到概率pT。将教师模型概率pT与学生模型的概率pS进行对比,通过对称KL散度损失函数进行知识蒸馏,更新学生模型的提示γ。可以在没有类别名称或标签信息的情况下,与任意现有的提示学习方法无缝集成。老师和学生模型都输入了训练集类别名称,一样的class进行对齐就好。根据平均概率,选择K个最高类别,作为学生模型的输入。,表示每个类别在整个批次中的平均概率。沿批次轴计算平均概率,得到。原创 2024-08-28 23:27:34 · 1255 阅读 · 0 评论 -
【提示学习论文】CPL:Concept-Guided Prompt Learning for Generalization in Vision-Language Models
之前的方法只投影全局特征到prompt,忽略了多样视觉概念,比如颜色、形状、大小利用CLIP的丰富知识来创建一个可视化的概念缓存,实现概念引导提示。原创 2024-08-28 23:21:20 · 1261 阅读 · 0 评论 -
【提示学习论文】AAPL: Adding Attributes to Prompt Learning for Vision-Language Models
在CoCoOp上的改进,在原本的meta-net中,增加了Adtriplet loss。通过在两个类别,两种随机增强之间计算,更新meta-net。然后将meta token加入到Learnable prompt里面,和CoCoOp一样。原创 2024-08-24 16:19:12 · 649 阅读 · 1 评论 -
【提示学习论文】POMP:Prompt Pre-Training with Twenty-Thousand Classes for Open-Vocabulary Visual Recognition
传统的计算contrastive loss时,需要正样本与所有负样本对比,需要的资源过高,因此提出每次训练时,从21k的类别中采样k个类别,包括真类y和k-1个负类,用于与ground truth的contrastive loss的计算。将pre-training应用于prompt-learning的一篇文章,将模型在imagenet-21k上进行预训练时,存在GPU显存资源受限的问题,作者提出了local contrast和local correction来解决显存过载的问题。提示调优的计算和缓存成本。原创 2024-06-04 11:49:49 · 912 阅读 · 1 评论 -
【提示学习论文】TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model
近年来,通过可学习的域共享或图像条件的文本tokens,促进生成适用于特定任务的分类器问题:这些textual tokens对unseen域具有有限的泛化能力,不能动态地适应测试类的分布解决:提出了新的基于文本的类感知提示调优(TCP,Textual-based Class-aware Prompt)。显式地结合关于类的先验知识,增强它们的可辨别性。利用文本知识嵌入(TKE),映射高泛化性的类级文本知识,到类感知文本tokens。原创 2024-05-14 19:03:56 · 1391 阅读 · 4 评论 -
【提示学习论文】Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models论文原理
在这项工作中,我们探讨了如何充分发挥预训练的视觉-语言基础模型作为更好的零样本学习者的潜力。TPT 的思想可以应用于其他基础模型,用于各种下游任务,包括其他视觉-语言模型和其他模态的基础模型(例如,预训练的大规模语言模型),以进一步提高它们的零样本泛化能力。在测试时给定单个样本,我们通过生成多个随机增强视图来执行提示调优,并优化文本提示,以便模型在不同的增强视图中具有一致的预测。结果表明,使用置信度最高的前 10% 样本可以获得最高的平均准确率,另外,置信度选择的效果可推广到其他基于熵的测试时优化方法。原创 2024-05-05 17:43:56 · 1873 阅读 · 0 评论 -
【提示学习论文】PMF:Efficient Multimodal Fusion via Interactive Prompting论文原理
由于每个单模态变换器的总变换器层数(Limg和Ltxt)现在不同,两个模态的单模态基础特征现在需要不同的层进行提取,而融合保留的剩余层数量保持不变。结论:我们提出了一种新型的模块化多模态融合框架,展现了高度的灵活性,并促进了不同模态之间的双向交互,即PMF。通过仅在使用的单模态变换器的深层上添加提示,PMF可以显著减少反向传播中梯度计算的内存使用。每个融合层由查询阶段、融合阶段组成,提取的单模态基本特征通过多个多模态融合层进行融合。表2中,可以看到,PMF的可学习参数少,可节省高达66%的训练内存使用量。原创 2024-04-28 16:23:52 · 2029 阅读 · 0 评论 -
【提示学习】PromptSync论文问题汇总
在 ImageNet 上计算出每个类别的原型,这些原型是离线计算的,包括了样本和其增强视图。我们的方法解决了类优势和方差问题,总体上比现有方法高出2.33%,在领域泛化基准上,从基础到新的泛化提高了1%,跨数据集传输提高了2.84%。在计算损失时,均方误差损失对于一定范围内的误差增加会给予相等的惩罚,而我们希望在小范围内的误差增加时给予更大的惩罚,因此作者将损失取对数。训练可学习提示,使用对比学习的方法,拉近同一类别样本在嵌入空间中的距离,将不同类别的样本推开,实现更好的样本分类和原型分布。原创 2024-04-26 11:18:52 · 1458 阅读 · 0 评论 -
【提示学习论文】BlackVIP: Black-Box Visual Prompting for Robust Transfer Learning论文原理
在 BlackVIP 中,VP 是由协调器(Coordinator)设计的,并且通过黑盒优化算法(SPSA-GC)来进行优化。原创 2024-04-20 11:14:24 · 1347 阅读 · 0 评论 -
【提示学习论文】KgCoOp:Visual-Language Prompt Tuning with Knowledge-guided Context Optimization论文原理
本文引入了一种新的提示微调方法知识引导上下文优化(Knowledge-guided Context Optimization,KgCoOp),KgCoOp关键思想是通过减少可学习提示和人工提示之间的差异来缓解对一般文本知识的遗忘,在不舍弃原本知识的情况下确保和general knowledge不偏离太多。原创 2024-04-07 19:49:29 · 1912 阅读 · 0 评论 -
损失函数L1Loss、L2loss区别
平均绝对误差(Mean Absolute Error,MAE)预测值和真实值之差的绝对值。原创 2024-04-07 19:44:30 · 798 阅读 · 0 评论 -
【提示学习论文】ProGrad:Prompt-aligned Gradient for Prompt Tuning论文原理
提出了一种基于prompt对齐的梯度的引导方法(ProGrad),来应对prompt学习中添加的不正确偏置的问题。在tuning的过程中进行一种正则化,来确保这一步的tuning不和原本的知识(zero-shot CLIP)产生冲突。由CoOp进行学习的域特殊方向,加强其在当前数据下的精度的优化方向,但是这可能导致过拟合。用一个一般普通的prompt和zero-shot CLIP的logits计算一个KL散度,这个KL散度回传的梯度作为一般方向。在本文CoOp中,我们没有使用。来更新上下文向量,而是使用。原创 2024-04-07 19:42:29 · 1961 阅读 · 1 评论 -
【提示学习论文】Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learner论文原理
我们提出了CaFo,这是一系列基础模型,可以理解来自不同预训练的各种知识,并遵循“提示,生成,然后缓存”的流程。最近,CLIP模型通过大规模语言-图像对的预训练展现出了良好的零样本迁移能力,为开放词汇的视觉识别提供了有利条件。为了层叠不同的预训练范式,我们引入了CaFo和“提示-生成-缓存”的管道,分别释放了不同的自监督知识的力量。许多先前的工作在这一领域提出了各种方法,通过元学习、度量学习和数据增强等手段来增强模型的泛化能力。我们的方法在不同的数据集上显示了最先进的性能,这表明了优越的泛化能力。原创 2024-03-29 22:05:56 · 1058 阅读 · 0 评论 -
【提示学习论文】LEARNING TO COMPOSE SOFT PROMPTS FOR COMPOSITIONAL ZERO-SHOT LEARNING(CSP)论文原理
这篇论文介绍了一种名为组合软提示CSP的学习技术,旨在提高大规模预训练视觉语言模型如CLIP的零样本组合性能,一种预测unseen的属性-对象组合的任务原创 2024-03-27 16:04:22 · 1112 阅读 · 0 评论 -
【提示学习论文】PLOT: PROMPT LEARNING WITH OPTIMAL TRANSPORT FOR VISION-LANGUAGE MODELS论文原理
我们的 PLOT 方法和 CoOp 方法在四个基于 ImageNet 的鲁棒性评估数据集上的结果。,我们报告了直接将提示集合与全局视觉特征进行匹配(标记为“G”)的性能,包括Caltech101、DTD和FOOD101在内的三个数据集。我们建立在CoOp的基础上,并在各种数据集上的少样本识别任务中取得了显著的改进,这证明了学习多个提示而不是单个提示的优势。G+V没有太大改进,G+E有改进,PLOT在所有实验中都表现出了一致的优势,这进一步证明了OT距离的有效性。原创 2024-03-25 20:14:24 · 1392 阅读 · 0 评论 -
【提示学习论文】“This is my unicorn, Fluffy”Personalizing frozen vision-language representations(perVL)论文原理
提出perVL方法,解决个性化视觉与语言问题。包括三个主要步骤:学习反演映射、初始个性化和微调。通过在两个新的个性化基准数据集上进行实验,证明了在个性化图像检索和分割任务上的有效性。原创 2024-03-24 20:39:10 · 752 阅读 · 0 评论 -
【提示学习论文】OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression论文原理
本文将有序回归重新定义为具有对比目标的图像-语言匹配问题: 将标签视为文本, 输入文本编码器得到每个序数获取语言原型嵌入。论文提出了基于语言引导的有序回归范式现有的有序回归方法通常存在过拟合以及特征空间有序性缺失的问题论文提出的OrdinalCLIP模型,它将每个序数类别与其源自CLIP文本编码器的语言概念相关联为了利用语言先验,每个序数概念都被映射到相应的语言原型进一步提出了可学习的序数提示词来显式学习序数的嵌入,通过保持秩嵌入的顺序以及插值生成序数。原创 2024-03-17 20:15:40 · 1358 阅读 · 0 评论 -
【提示学习代码】CoOp代码详读
CoOp是对CLIP的改进工作,主要是对prompt进行学习从而不用来手动设置prompt。自定义CLIP模型:上述两个模块结合而成的CLIP。文本编码器,接收文本的输入,并输出相应的编码表示。将图像和文本进行编码并计算它们之间的相似性。permute后变成了(4,2,3)Prompt学习器,用于学习生成提示。原创 2024-03-16 12:10:25 · 4831 阅读 · 25 评论 -
【CV论文】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows论文原理
Vision Transformer:进行MSA(多头注意力)计算时,任何一个patch都要与其他所有的patch都进行attention计算,计算量与图片的大小成平方增长。patch partition:打成patch,每个patch大小为4×4,image变成56×56×48。,所以称为W-MSA(Window Multi-Self-Attention)披着transformer皮的卷积神经网络,将二者进行了结合。Swin Transformer:采用了W-MSA,当图片大小增大时,计算量仅仅是。原创 2024-03-03 14:29:23 · 1036 阅读 · 0 评论 -
【提示学习代码】Learning to Prompt for Vision-Language Models(CoOp代码复现)
这个 Bash 脚本中,for SEED in 1 2 3 部分在三个不同的种子下运行相同的实验。每次迭代都使用了一个不同的种子值(1、2、3),以确保在不同运行中获得相似但不完全相同的随机性。half只有GPU支持,pytorch cpu不支持半精度训练,此时去看,isavailable为False;不清楚,重装了torch、torchvision。新下载项目,重装一遍dassl。原创 2024-02-04 17:52:44 · 1692 阅读 · 18 评论 -
【提示学习论文七】Visual Prompt Tuning论文原理
这篇文章于2022年发表在ECCV(European Conference on Computer Vision),作者是Menglin Jia, Luming Tang,Bor-Chun Chen, Claire Cardie, Serge Belongie,Bharath Hariharan, Ser-Nam Lim。VPT是一种有效的用于大规模Transformer的视觉微调,只需要在输入空间引入少量可训练参数,同时冻结backbone。原创 2024-01-16 14:18:46 · 2236 阅读 · 1 评论 -
【提示学习论文六】MaPLe: Multi-modal Prompt Learning论文原理
这篇文章于2023年发表在CVPR(Conference on Computer Vision and Pattern Recognition),作者是Muhammad Uzair Khattak,Hanoona Rasheed,Muhammad Maaz,Salman Khan,Fahad Shahbaz Khan。研究发现Clip的问题:在单个分支(语言或视觉)中使用prompt来调整表示是次优的,它不能在下游任务上灵活地动态调整两个表示空间。原创 2024-01-11 20:23:23 · 3328 阅读 · 11 评论 -
【提示学习论文五】Conditional Prompt Learning for Vision-Language Models论文原理及复现工作
计算预测概率的公式,涉及了上下文标记和模型的预测函数。Meta-Net 结构: Meta-Net采用了一个。评估模型对给定输入图像的类别预测概率。和 Meta-Net 的参数。,隐藏层将输入维度降低了16倍。训练过程中,更新了上下文向量。原创 2024-01-06 17:28:34 · 1815 阅读 · 0 评论