
视觉小白论文解读
文章平均质量分 92
日出_1127
视觉研究生苦读论文,探索多模态、提示微调新世界
展开
-
TaskRes(论文解读):Task Residual for Tuning Vision-Language Models
大规模视觉语言模型在大规模数据上预训练学到了广泛的视觉表征和视觉概念。原则上,当VLM视觉语言模型被迁移到数据有限的下游任务时,应当适当地继承原学习到的知识架构。现有的高效的迁移学习方法ETL包含两个分支(PT提示调优和AT适配器调优)要么损害的先验知识,要么过度偏向于先验知识,其中提示调优丢弃了预训练的基于文本的分类器,并构建了一个新的分类器,而适配器调优完全依赖于预训练的特征。原创 2024-10-16 10:45:11 · 1383 阅读 · 0 评论 -
(论文解读)Visual-Language Prompt Tuning with Knowledge-guided Context Optimization
提示调优是利用任务相关的可学习标记将预训练的视觉语言模型(VLM)适应下游任务的有效方法。基于CoOp的代表性的工作将可学习的文本token与类别token相结合,来获得特定的文本知识。然而,这些特定的文本知识对不可见类别的泛化性较差,因为它忘记了具有强泛化能力的通用知识。为了解决这个问题,本文引入了KgCoOp(Knowledge-guided Context Optimization)来增强可学习提示对不可见类别的泛化性。原创 2024-09-15 07:15:00 · 1034 阅读 · 0 评论 -
MmAP(论文解读) : Multi-Modal Alignment Prompt for Cross-Domain Multi-Task Learning
多任务学习(Multi-Task Learning,MTL)同时训练多个相关的任务,从而能够提高单个任务的性能。通常,一个多任务网络架构包含共享backbone和任务特定的解码器。然而,解码器的复杂度随着任务数量的增加而增加。为了应对以上挑战,本文集成了无解码器的视觉语言模型CLIP,该模型具有鲁棒性的零样本泛化能力。最近,参数高效的迁移学习的方法已经在CLIP上进行了广泛的探索,以适应下游任务,其中提示调优表现出强大的潜力。然而,这些方法仅对单一模态(文本或图像)进行微调,破坏了CLIP的模态结构。原创 2024-09-10 17:30:00 · 1247 阅读 · 0 评论 -
TPT(论文解读):Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models
预训练的视觉语言模型在许多具有恰当文本提示的下游任务中表现出不错的zero-shot泛化。最近的研究并非使用手动设计的提示,而是使用下游任务中的训练数据来学习提示。虽然这种方法是有效的,但是对于特定领域的数据进行训练,当面对不可见的新领域时,模型的泛化能力会下降。本文提出了TPT(Test-time prompt tuning),这是一种可以使用单个测试样本动态学习自适应提示的方法。对于图像分类,TPT通过最小化熵(置信度筛选 )来优化提示,以至于模型在每个测试样本的不同增强视图中具有一致的预测。原创 2024-09-06 09:30:00 · 1662 阅读 · 0 评论 -
MaPLe(论文解读): Multi-modal Prompt Learning
预训练的视觉语言模型(VL-PTMs)(比如CLIP)在下游任务中已经表现出不错的泛化能力。但是它们对输入文本提示模板的选择很敏感,需要仔细选择提示模板才能表现良好。受到NLP领域的启发,最近的CLIP的自适应性方法开始学习提示作为文本输入,来微调CLIP以适应下游任务。本文能注意到,在CLIP的单个分支(语言或图像分支)中使用提示来调整表示的效果是次优的,因为它不具备在下游任务中动态调整两个表示空间的灵活性。原创 2024-09-05 00:45:00 · 1490 阅读 · 0 评论 -
论文解读:Visual Prompt Tuning
当前调整预训练模型的方法需要更新backbone的全部参数,即完全微调。本文提出了一种高效的方法VPT,成为视觉中大规模transformer模型完全微调的替代方案。从微调大规模语言模型中吸取经验,VPT仅在输入空间中引入少数的可训练参数,保证骨干网络参数冻结。通过对各种下游识别任务的广泛实验证明,与其他参数高效的微调方法相比,VPT实现了显著的性能提升。最重要的是,在许多情况下,VPT在模型容量和训练数据规模上甚至优于完全微调,同时降低了每个任务的存储成本。原创 2024-09-03 00:30:00 · 1417 阅读 · 2 评论 -
论文解读:Prompt-aligned Gradient for Prompt Tuning
得益于CLIP等大型预训练的视觉语言模型VLM,我们可以通过离散的提示设计构建Zero-shot分类器,例如,利用图像与提示语句" a photo of a [ CLASS ] "之间的相似度,可以获得图像属于某个类别的置信度分数。此外,如果我们使用少量样本对软提示进行微调,提示调优表现出VLMs快速适应下游任务的巨大潜力。然而,我们发现一个常见的错误,不适当的微调或极少样本的学习甚至会导致zero-shot预测性能低下。原创 2024-08-29 19:45:00 · 1470 阅读 · 0 评论 -
论文解读Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation
大多数现有的无监督域适应( UDA )方法依赖于共享网络来提取领域不变特征。无论如何,当面对多个源域时,优化这样的网络涉及更新整个网络的参数,这样既昂贵又有挑战性,特别是与最小最大策略耦合时。受到提示学习的最新进展的启发,即以计算经济的方式为下游任务适配高容量模型,本文引入了多提示对齐( Multi-Prompt Alignment,MPA ),一种简单而有效的多源UDA框架。给定一个源域和目标域对,MPA首先通过使用对比损失来训练提示从而最小化领域差异。原创 2024-08-26 16:00:00 · 1462 阅读 · 0 评论 -
(论文解读)Domain Adaptation via Prompt Learning
无监督域适应( UDA )旨在将从带有标签的源域数据中学习到的模型适应到未标注的目标域数据集。现有的UDA方法通过对齐源域和目标域特征空间来学习领域不变特征。这种对齐是通过约束实现的,例如统计差异最小化或对抗学习。然而,这些约束会导致语义特征结构的扭曲和类别判别性的丧失。本文提出一种新的UDA提示学习范式,命名为基于提示学习的领域自适应( Domain Adaptation via Prompt Learning,DAPL )。原创 2024-08-25 10:00:00 · 1684 阅读 · 0 评论 -
SwapPrompt(论文解读): Test-Time Prompt Adaptation for Vision-Language Models
测试自适应 (TTA) 是无监督域自适应(UDA)中一种特殊且实用的设置,它允许源域中的预训练模型去适应另一个目标域中的未标记测试数据。为了避免计算密集型的骨干网络微调过程,因此利用预训练视觉语言模型(例CLIP、CoOp)zero-shot的泛化潜力,仅对未见测试域的运行时提示进行调整。然而,现有的解决方案尚未充分利用预训练模型的表征能力,因为它们只关注基于熵的优化,其性能远低于监督提示适应方法,例如CoOp。本文提出了SwapPrompt,可以有效地利用自监督对比学习来促进测试时提示适应。原创 2024-08-23 01:15:00 · 1975 阅读 · 5 评论 -
CoCoOp(论文解读):Conditional Prompt Learning for Vision-Language Models
随着预训练的视觉语言模型(如 CLIP)的兴起,研究使这些模型适应下游数据集的方法变得至关重要。最近CoOp方法将NLP领域中的提示学习引入到视觉领域中,来调整预训练的视觉语言模型。具体来说,CoOp 将提示中的上下文转换为一组可学习的向量,并且只需少量带有标签的图像进行学习,就实现比手动修改提示更大的提升。本文发现 CoOp 的一个关键问题:学习的上下文提示无法扩展到同一数据集中更广泛的未见的类,这表明 CoOp 在训练过程中对基础类别的数据产生了过拟合。原创 2024-08-16 22:39:57 · 2130 阅读 · 0 评论 -
CoOp(论文解读):Learning to Prompt for Vision-Language Models
像CLIP这样大规模预训练的视觉语言模型在学习表征方面表现出巨大的潜力,并且这些表征可以迁移到广泛的下游任务中。与那些传统的基于离散标签的的表征学习不同,视觉语言预训练模型将图像和文本特征在一个共同的特征空间中对齐,这就允许了可以通过提示的方式将zero-shot迁移到下游任务中,即分类权重从类别的描述性语言中合成。在这项工作中,本文发现部署这类模型最主要的挑战就是Prompt Engineering,其需要耗费大量的时间对单词进行调整,因为提示中极小的变化就会导致性能巨大的影响。原创 2024-08-19 00:30:00 · 1813 阅读 · 0 评论 -
*(论文解读)Prompt-Based Distribution Alignment for Unsupervised Domain Adaptation
近年来,尽管大型视觉语言模型(VLM)在大规模的下游任务中取得了前所未有的成功,但是现实世界中无监督领域适应(UDA)仍然没有得到很好的探索。因此,本文首先通过实验证明无监督训练的VLM可以显著的减少源域与目标域之间的分布差异,从而提高UDA的性能。无论如何,在下游UDA任务中直接部署此类模型的一个主要的挑战就是提示工程,这需要对齐源域和目标域之间的领域知识,因为UDA的性能受到领域不变表示的严重影响。原创 2024-08-16 06:30:00 · 1174 阅读 · 0 评论 -
PØDA(论文解读): Prompt-driven Zero-shot Domain Adaptation
领域适应已经在计算机视觉中进行了广泛的研究,但是在训练阶段仍需要访问目标数据集,这在一些不常见的情况中可能是棘手的。本文提出了“提示驱动的zero-shot领域适应”的方法,仅使用目标领域的自然语言提示来对训练在源域上的模型进行适应。首先,本文通过一个预训练的对比视觉语言模型(CLIP),利用仿射变换来优化源域的特征,使其接近目标域的文本嵌入,同时又保持特征的内容和语义,从而实现对目标域的零样本域适应。为了实现这一点,本文提出了基于提示的实例规范化(PIN)。原创 2024-08-11 08:45:00 · 1233 阅读 · 0 评论 -
MetaAlign(论文解读): Coordinating Domain Alignment and Classification for Unsupervised Domain Adaptation
在无监督域适应中,为了减轻域偏移的影响,许多方法通过对抗学习或者显示对齐统计数据来在特征空间中对齐源域和目标域。无论如何,这种域对齐的优化目标与目标分类任务的优化目标不协调,因此他们的优化下降方向可能不一致。这就会降低域对齐在提高无监督域适应性能方面的性能。在本文中研究和缓解域对齐和分类任务之间的优化不一致的问题。本文提出了一种基于元优化的策略,称为MetaAlign,分别将领域对齐目标和分类目标任务视为元学习中的元训练和元测试任务。原创 2024-08-09 14:30:00 · 1098 阅读 · 0 评论 -
GRAM(论文解读):Gradient-Regulated Meta-Prompt Learning for Generalizable Vision-Language Models
提示微调是最近一种新兴的范式,通过学习“软提示”来调节冻结的预训练模型,使强大的视觉-语言预训练模型以参数和数据高效的方式适应下游任务。尽管提示微调表现出有效性,但是在few-shot场景中提示微调的性能对初始化非常敏感,需要很耗时的过程才能收敛到一个好的解,从而限制了预训练模型快速适应的能力。此时,提示微调可能会破坏预训练模型的泛化能力,因为可学习的提示标记很容易对有限的训练样本产生过拟合。原创 2024-08-03 11:58:32 · 1068 阅读 · 0 评论 -
MaPLe论文解读: Multi-modal Prompt Learning
预训练的视觉语言模型(VL-PTMs)(比如CLIP)在下游任务中已经表现出不错的泛化能力。但是它们对输入文本提示模板的选择很敏感,需要仔细选择提示模板才能表现良好。受到NLP领域的启发,最近的CLIP的适应性方法开始学习提示作为文本输入,来微调CLIP以适应下游任务。本文能注意到,在CLIP的单个分支中使用提示来调整表示的效果是次优的,因为它不具备在下游任务中动态调整两个表示空间的灵活性。原创 2024-07-10 09:15:00 · 1712 阅读 · 4 评论 -
MuDPT论文解读: Multi-modal Deep-symphysis Prompt Tuning for Large Pre-trained Vision-Language Models
随着大型预训练视觉语言模型的出现(比如CLIP),提示微调(比如CoOp)最近在各种下游任务中表现出不错的视觉识别和迁移学习能力。无论如何,我们发现现存的单模态的提示调优方法可能会导致次优的性能,因为单模态设计破坏了预训练模型中文本表示和视觉表示的原始对齐。受到预训练视觉语言模型本质的启发,我们旨在实现提示微调的完整性,并且提出了一种新的方法,称为多模态深度联合提示微调MuDPT,这种方法通过额外地学习一个与模型无关的转换网络来扩展独立的多模态提示微调,来实现深度的分层的双向提示融合。原创 2024-07-08 13:45:00 · 1458 阅读 · 1 评论 -
LAMM(论文解读): Label Alignment for Multi-Modal Prompt Learning
随着CLIP等预训练视觉-语言模型在视觉表征任务上的成功,将预训练模型迁移到下游任务是一种重要的范式。最近,受到NLP启发的提示微调范式在VL领域取得了巨大的进展。之前的方法主要集中在为视觉和文本输入构建提示模板上,但是忽略了VL模型和下游任务之间在类标签表示上的差距。为了解决这个问题,引入LAMM,可以通过端到端的训练来动态调整下游数据集的类别嵌入。为了实现更合适的标签分布,提出了一种分层损失,包含参数空间、特征空间和logits空间的对齐。原创 2024-07-06 11:15:00 · 1563 阅读 · 1 评论 -
mPLUG(论文解读): Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections
详细解读mPLUG,一招就搞定,分模块仔细解读原创 2024-07-05 09:45:00 · 1523 阅读 · 1 评论 -
(CLIP)Learning Transferable Visual Models From Natural Language Supervision论文解读
详细解读CLIP,初识多模态、提示微调原创 2024-07-04 09:23:16 · 1242 阅读 · 4 评论