自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 TaskRes(论文解读):Task Residual for Tuning Vision-Language Models

大规模视觉语言模型在大规模数据上预训练学到了广泛的视觉表征和视觉概念。原则上,当VLM视觉语言模型被迁移到数据有限的下游任务时,应当适当地继承原学习到的知识架构。现有的高效的迁移学习方法ETL包含两个分支(PT提示调优和AT适配器调优)要么损害的先验知识,要么过度偏向于先验知识,其中提示调优丢弃了预训练的基于文本的分类器,并构建了一个新的分类器,而适配器调优完全依赖于预训练的特征。

2024-10-16 10:45:11 1361 1

原创 Prompt SRC(论文解读)Self-regulating Prompts: Foundational Model Adaptation without Forgetting

提示学习已经成为微调基础模型(CLIP)适应下游任务的有效替代方法。传统的方法使用任务特定的目标,即交叉熵损失进行训练,提示往往会过拟合到下游数据分布上,并且很难从冻结的CLIP中捕捉到任务无关的通用特征。这就导致了模型原本泛化能力的损失。为了解决这个问题,本文引入了一个自正则化的提示框架,称为Prompt SRC(带有自我调节约束的提示)。

2024-09-19 19:00:00 2291

原创 (论文解读)Visual-Language Prompt Tuning with Knowledge-guided Context Optimization

提示调优是利用任务相关的可学习标记将预训练的视觉语言模型(VLM)适应下游任务的有效方法。基于CoOp的代表性的工作将可学习的文本token与类别token相结合,来获得特定的文本知识。然而,这些特定的文本知识对不可见类别的泛化性较差,因为它忘记了具有强泛化能力的通用知识。为了解决这个问题,本文引入了KgCoOp(Knowledge-guided Context Optimization)来增强可学习提示对不可见类别的泛化性。

2024-09-15 07:15:00 1000

原创 Align Your Prompts论文解读: Test-Time Prompting with Distribution Alignment for Zero-Shot Generalization

CLIP等视觉语言模型的zero-shot泛化已经引领它们在下游任务中使用提示学习。先前的工作已经表明使用熵最小化进行测试时提示调优,调整文本提示适应未见过的领域。尽管这样的方法非常高效,但是它们忽略了在不可见领域中性能下降的关键因素——分布偏移。本文使用提示调优来将分布外测试数据与源域数据进行对齐来解决以上问题。本文测试时使用单个测试样本通过最小化特征分布偏移来调整多模态提示,从而弥合测试域中的差距。与领域适应的基准进行评估,本文方法比现有提示学习方法提高了,比基准MaPLe提高了3.08%。

2024-09-13 08:00:00 1219

原创 MmAP(论文解读) : Multi-Modal Alignment Prompt for Cross-Domain Multi-Task Learning

多任务学习(Multi-Task Learning,MTL)同时训练多个相关的任务,从而能够提高单个任务的性能。通常,一个多任务网络架构包含共享backbone和任务特定的解码器。然而,解码器的复杂度随着任务数量的增加而增加。为了应对以上挑战,本文集成了无解码器的视觉语言模型CLIP,该模型具有鲁棒性的零样本泛化能力。最近,参数高效的迁移学习的方法已经在CLIP上进行了广泛的探索,以适应下游任务,其中提示调优表现出强大的潜力。然而,这些方法仅对单一模态(文本或图像)进行微调,破坏了CLIP的模态结构。

2024-09-10 17:30:00 1209 1

原创 TPT(论文解读):Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models

预训练的视觉语言模型在许多具有恰当文本提示的下游任务中表现出不错的zero-shot泛化。最近的研究并非使用手动设计的提示,而是使用下游任务中的训练数据来学习提示。虽然这种方法是有效的,但是对于特定领域的数据进行训练,当面对不可见的新领域时,模型的泛化能力会下降。本文提出了TPT(Test-time prompt tuning),这是一种可以使用单个测试样本动态学习自适应提示的方法。对于图像分类,TPT通过最小化熵(置信度筛选 )来优化提示,以至于模型在每个测试样本的不同增强视图中具有一致的预测。

2024-09-06 09:30:00 1590

原创 MaPLe(论文解读): Multi-modal Prompt Learning

预训练的视觉语言模型(VL-PTMs)(比如CLIP)在下游任务中已经表现出不错的泛化能力。但是它们对输入文本提示模板的选择很敏感,需要仔细选择提示模板才能表现良好。受到NLP领域的启发,最近的CLIP的自适应性方法开始学习提示作为文本输入,来微调CLIP以适应下游任务。本文能注意到,在CLIP的单个分支(语言或图像分支)中使用提示来调整表示的效果是次优的,因为它不具备在下游任务中动态调整两个表示空间的灵活性。

2024-09-05 00:45:00 1457

原创 论文解读:Visual Prompt Tuning

当前调整预训练模型的方法需要更新backbone的全部参数,即完全微调。本文提出了一种高效的方法VPT,成为视觉中大规模transformer模型完全微调的替代方案。从微调大规模语言模型中吸取经验,VPT仅在输入空间中引入少数的可训练参数,保证骨干网络参数冻结。通过对各种下游识别任务的广泛实验证明,与其他参数高效的微调方法相比,VPT实现了显著的性能提升。最重要的是,在许多情况下,VPT在模型容量和训练数据规模上甚至优于完全微调,同时降低了每个任务的存储成本。

2024-09-03 00:30:00 1391 3

原创 论文解读:Prompt-aligned Gradient for Prompt Tuning

得益于CLIP等大型预训练的视觉语言模型VLM,我们可以通过离散的提示设计构建Zero-shot分类器,例如,利用图像与提示语句" a photo of a [ CLASS ] "之间的相似度,可以获得图像属于某个类别的置信度分数。此外,如果我们使用少量样本对软提示进行微调,提示调优表现出VLMs快速适应下游任务的巨大潜力。然而,我们发现一个常见的错误,不适当的微调或极少样本的学习甚至会导致zero-shot预测性能低下。

2024-08-29 19:45:00 1441

原创 论文解读Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation

大多数现有的无监督域适应( UDA )方法依赖于共享网络来提取领域不变特征。无论如何,当面对多个源域时,优化这样的网络涉及更新整个网络的参数,这样既昂贵又有挑战性,特别是与最小最大策略耦合时。受到提示学习的最新进展的启发,即以计算经济的方式为下游任务适配高容量模型,本文引入了多提示对齐( Multi-Prompt Alignment,MPA ),一种简单而有效的多源UDA框架。给定一个源域和目标域对,MPA首先通过使用对比损失来训练提示从而最小化领域差异。

2024-08-26 16:00:00 1434

原创 (论文解读)Domain Adaptation via Prompt Learning

无监督域适应( UDA )旨在将从带有标签的源域数据中学习到的模型适应到未标注的目标域数据集。现有的UDA方法通过对齐源域和目标域特征空间来学习领域不变特征。这种对齐是通过约束实现的,例如统计差异最小化或对抗学习。然而,这些约束会导致语义特征结构的扭曲和类别判别性的丧失。本文提出一种新的UDA提示学习范式,命名为基于提示学习的领域自适应( Domain Adaptation via Prompt Learning,DAPL )。

2024-08-25 10:00:00 1632

原创 SwapPrompt(论文解读): Test-Time Prompt Adaptation for Vision-Language Models

测试自适应 (TTA) 是无监督域自适应(UDA)中一种特殊且实用的设置,它允许源域中的预训练模型去适应另一个目标域中的未标记测试数据。为了避免计算密集型的骨干网络微调过程,因此利用预训练视觉语言模型(例CLIP、CoOp)zero-shot的泛化潜力,仅对未见测试域的运行时提示进行调整。然而,现有的解决方案尚未充分利用预训练模型的表征能力,因为它们只关注基于熵的优化,其性能远低于监督提示适应方法,例如CoOp。本文提出了SwapPrompt,可以有效地利用自监督对比学习来促进测试时提示适应。

2024-08-23 01:15:00 1957 6

原创 CoOp(论文解读):Learning to Prompt for Vision-Language Models

像CLIP这样大规模预训练的视觉语言模型在学习表征方面表现出巨大的潜力,并且这些表征可以迁移到广泛的下游任务中。与那些传统的基于离散标签的的表征学习不同,视觉语言预训练模型将图像和文本特征在一个共同的特征空间中对齐,这就允许了可以通过提示的方式将zero-shot迁移到下游任务中,即分类权重从类别的描述性语言中合成。在这项工作中,本文发现部署这类模型最主要的挑战就是Prompt Engineering,其需要耗费大量的时间对单词进行调整,因为提示中极小的变化就会导致性能巨大的影响。

2024-08-19 00:30:00 1711

原创 CoCoOp(论文解读):Conditional Prompt Learning for Vision-Language Models

随着预训练的视觉语言模型(如 CLIP)的兴起,研究使这些模型适应下游数据集的方法变得至关重要。最近CoOp方法将NLP领域中的提示学习引入到视觉领域中,来调整预训练的视觉语言模型。具体来说,CoOp 将提示中的上下文转换为一组可学习的向量,并且只需少量带有标签的图像进行学习,就实现比手动修改提示更大的提升。本文发现 CoOp 的一个关键问题:学习的上下文提示无法扩展到同一数据集中更广泛的未见的类,这表明 CoOp 在训练过程中对基础类别的数据产生了过拟合。

2024-08-16 22:39:57 2053

原创 *(论文解读)Prompt-Based Distribution Alignment for Unsupervised Domain Adaptation

近年来,尽管大型视觉语言模型(VLM)在大规模的下游任务中取得了前所未有的成功,但是现实世界中无监督领域适应(UDA)仍然没有得到很好的探索。因此,本文首先通过实验证明无监督训练的VLM可以显著的减少源域与目标域之间的分布差异,从而提高UDA的性能。无论如何,在下游UDA任务中直接部署此类模型的一个主要的挑战就是提示工程,这需要对齐源域和目标域之间的领域知识,因为UDA的性能受到领域不变表示的严重影响。

2024-08-16 06:30:00 1144

原创 PØDA(论文解读): Prompt-driven Zero-shot Domain Adaptation

领域适应已经在计算机视觉中进行了广泛的研究,但是在训练阶段仍需要访问目标数据集,这在一些不常见的情况中可能是棘手的。本文提出了“提示驱动的zero-shot领域适应”的方法,仅使用目标领域的自然语言提示来对训练在源域上的模型进行适应。首先,本文通过一个预训练的对比视觉语言模型(CLIP),利用仿射变换来优化源域的特征,使其接近目标域的文本嵌入,同时又保持特征的内容和语义,从而实现对目标域的零样本域适应。为了实现这一点,本文提出了基于提示的实例规范化(PIN)。

2024-08-11 08:45:00 1205

原创 MetaAlign(论文解读): Coordinating Domain Alignment and Classification for Unsupervised Domain Adaptation

在无监督域适应中,为了减轻域偏移的影响,许多方法通过对抗学习或者显示对齐统计数据来在特征空间中对齐源域和目标域。无论如何,这种域对齐的优化目标与目标分类任务的优化目标不协调,因此他们的优化下降方向可能不一致。这就会降低域对齐在提高无监督域适应性能方面的性能。在本文中研究和缓解域对齐和分类任务之间的优化不一致的问题。本文提出了一种基于元优化的策略,称为MetaAlign,分别将领域对齐目标和分类目标任务视为元学习中的元训练和元测试任务。

2024-08-09 14:30:00 1075

原创 GRAM(论文解读):Gradient-Regulated Meta-Prompt Learning for Generalizable Vision-Language Models

提示微调是最近一种新兴的范式,通过学习“软提示”来调节冻结的预训练模型,使强大的视觉-语言预训练模型以参数和数据高效的方式适应下游任务。尽管提示微调表现出有效性,但是在few-shot场景中提示微调的性能对初始化非常敏感,需要很耗时的过程才能收敛到一个好的解,从而限制了预训练模型快速适应的能力。此时,提示微调可能会破坏预训练模型的泛化能力,因为可学习的提示标记很容易对有限的训练样本产生过拟合。

2024-08-03 11:58:32 1049

原创 Swin Transformer(论文阅读): Hierarchical Vision Transformer using Shifted windows

本文提出Swin Transformer。将Transformer从语言应用到视觉的巨大挑战来自于两个区域之间的差异。(有两方面差异,一方面来自于CV领域中各物体规模差异大,举例:一张图片中一辆公交车的大小和一个人的大小差异很大。另一方面是CV领域中计算复杂度和图片中分辨率呈二次方关系,限制了图片的分辨率)为了解决上述问题,本文提出的Swin Transformer有两方面的改善,分别为分层结构和移位窗口。其中移位窗口将自注意力计算限制在不重叠的局部窗口内,同时允许跨窗口连接。

2024-07-23 22:30:00 2120 1

原创 MoCo(论文阅读):Momentum Contrast for Unsupervised Visual Representation Learning

另一方面,字典中的key要保持一致,也就是说key需要使用相同或相似的编码器产生得到,由于字典的键来自于前面的几个小批量,而之前的key都是用不同时刻的编码去抽取的特征,导致不能一致,所以提出了动量编码器,一种缓慢推进的键编码器,作为查询编码器的基于动量的移动平均来实现,保证字典中的K使用相似编码器来生成的,最大可能保持一致性。如果要学好一个特征,字典必须有两个特点,一个是字典得足够大(一个大的字典包含很多负样本,容易学到有判别意义的特征),一个是字典的一致性(主要为了模型的训练,避免模型学到一些捷径)。

2024-07-22 15:00:00 1267 1

原创 MAE(论文阅读):Masked Autoencoders are scalable vision learners

本文主要介绍了掩码自编码器( MAE, Masked autoencoders)是视觉领域中可扩展的自监督学习算法。MAE具体操作为随机屏蔽输入image中的patchs,再重建丢失的像素。其基于两个核心操作。第一个是建立不对称的编码器-解码器架构,编码器只对没有屏蔽掉的patchs操作,轻量化的解码器通过潜在表示和屏蔽令牌重建原始图像。第二是发现了一种屏蔽图像patchs的高比例,比如75%。结合这两个操作使我们能够高效地训练大模型,加速了训练过程且提高了准确率。在下游任务的迁移性优于有监督的预训练。

2024-07-21 07:30:00 1366 3

原创 ViT(论文解读):An Image is worth 16*16 words

虽然transformer已经成为NLP领域的标准(BERT、GPT3、T5),但是在CV领域很有限。在CV中,自注意力或者和CNN一起用,或者替换CNN中某个组件后保持整体结构不变。本文证明了对CNN的这种依赖并不必要,在图像分类中,纯Vision Transformer直接作用于一系列图像块也可以取得不错的成果。尤其是当在大规模数据集上进行预训练再迁移到中小型数据集上效果类似于最好的CNN。Transformer的另外一个好处是需要更少的资源就能达到很好的效果。

2024-07-19 06:30:00 1167

原创 BERT(论文阅读):Pre-training of deep Bidirectional Transformers For Language Understanding

首段讲述本文工作对GPT和ELMo做出怎样的改进,第二段是BERT结果怎样好,讲述BERT在NLP(自然语言处理方面)取得了先进的成果,包括绝对精度和相对精度。BERT、GPT和ELMo的区别:GPT使用新的Transformer架构,使用左侧信息来预测未来信息。单项模型的缺点主要是不能获得好的词表示。ELMo通过使用从左到右(LTR)、从右到左(RTL)两个模型的输出拼接获得词的表示,双向信息融合的浅,且由于基于RNN架构,当涉及到下游任务时,需要对架构做出调整。

2024-07-16 17:30:00 1670 2

原创 注意力机制(论文阅读):Attention Is All You Need

主要序列转录模型通常采用复杂的循环或卷积神经网络,包含编码器和解码器,并通过注意机制连接两者。我们提出了一个全新、简化的网络架构,名为transformer,它完全基于注意力机制,摒弃了传统的递归和卷积方法。实验表明,在两个机器翻译任务中,transformer模型在性能上更出色,具有更好的并行性和更短的训练时间。

2024-07-15 06:00:00 1565 1

原创 GAN网络(论文阅读):Generative Adversarial Nets

当判别器效果比较好时,D(G(z))值为0,则log(1-D(G(z)))值为0,当判别器效果不好,会输出一个大于0 的数,则log(1-D(G(z)))值就为一个负数,在极端情况下,会得到负无穷大,此时判别失误。在价值函数的第二项中存在问题,在早期G比较弱的时,生成的数据和真实数据相差很大,D就容易训练的比较好,很容易区分,就会导致log(1-D(G(z)))变成0 ,这样很难求梯度来优化G,所以更新G时,将优化函数改为log(D(G(z)))。最终使G赢,即G生成的数据D判别不出来。

2024-07-14 17:15:00 1748 1

原创 ResNet(论文阅读):Deep Residual learning for Image Recognition

深层神经网络往往更难训练,我们提出了一种残差学习框架,使得网络深度可以大幅度增加,同时降低了训练难度。我们明确地将每一层改造成相对于输入进行学习的残差函数,而不是学习无参考函数。大量的实证证据表明,这种残差网络更容易优化,并且可以通过显著增加网络深度来提高准确率。我们在ImageNet数据集上评估了最大深度达到152层的残差网络——比VGG网络深8倍,但复杂度更低。这些残差网络的集成在ImageNet测试集上的错误率为3.57%。此外,我们还对CIFAR-10数据集的100层和1000层进行了分析。

2024-07-13 05:15:00 1628 1

原创 AlexNet(论文阅读):ImageNet Classification with Deep ConvolutionalNeural Networks

本文训练了一个大型深度卷积神经网络,用于将ImageNet LSVRC-2010竞赛中的120万张高分辨率图像分类为1000个不同的类别。在测试数据上,我们达到了37.5%的top-1错误率和17.0%的top-5错误率,这明显优于之前的最佳水平。该神经网络拥有6000万个参数和65万个神经元,由五个卷积层组成,其中一些卷积层后面跟着最大池化层,以及三个全连接层,最终是1000路softmax。为了加快训练速度,我们使用了不饱和神经元和卷积操作的非常高效的GPU实现。

2024-07-11 10:30:00 1057 2

原创 MaPLe论文解读: Multi-modal Prompt Learning

预训练的视觉语言模型(VL-PTMs)(比如CLIP)在下游任务中已经表现出不错的泛化能力。但是它们对输入文本提示模板的选择很敏感,需要仔细选择提示模板才能表现良好。受到NLP领域的启发,最近的CLIP的适应性方法开始学习提示作为文本输入,来微调CLIP以适应下游任务。本文能注意到,在CLIP的单个分支中使用提示来调整表示的效果是次优的,因为它不具备在下游任务中动态调整两个表示空间的灵活性。

2024-07-10 09:15:00 1657 5

原创 MuDPT论文解读: Multi-modal Deep-symphysis Prompt Tuning for Large Pre-trained Vision-Language Models

随着大型预训练视觉语言模型的出现(比如CLIP),提示微调(比如CoOp)最近在各种下游任务中表现出不错的视觉识别和迁移学习能力。无论如何,我们发现现存的单模态的提示调优方法可能会导致次优的性能,因为单模态设计破坏了预训练模型中文本表示和视觉表示的原始对齐。受到预训练视觉语言模型本质的启发,我们旨在实现提示微调的完整性,并且提出了一种新的方法,称为多模态深度联合提示微调MuDPT,这种方法通过额外地学习一个与模型无关的转换网络来扩展独立的多模态提示微调,来实现深度的分层的双向提示融合。

2024-07-08 13:45:00 1447 1

原创 LAMM(论文解读): Label Alignment for Multi-Modal Prompt Learning

随着CLIP等预训练视觉-语言模型在视觉表征任务上的成功,将预训练模型迁移到下游任务是一种重要的范式。最近,受到NLP启发的提示微调范式在VL领域取得了巨大的进展。之前的方法主要集中在为视觉和文本输入构建提示模板上,但是忽略了VL模型和下游任务之间在类标签表示上的差距。为了解决这个问题,引入LAMM,可以通过端到端的训练来动态调整下游数据集的类别嵌入。为了实现更合适的标签分布,提出了一种分层损失,包含参数空间、特征空间和logits空间的对齐。

2024-07-06 11:15:00 1525 1

原创 mPLUG(论文解读): Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections

详细解读mPLUG,一招就搞定,分模块仔细解读

2024-07-05 09:45:00 1509 1

原创 (CLIP)Learning Transferable Visual Models From Natural Language Supervision论文解读

详细解读CLIP,初识多模态、提示微调

2024-07-04 09:23:16 1228 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除