自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 EPSANet: An Efficient Pyramid Split Attention Block on Convolutional Neural Network

在本文中,提出了一种名为 Pyramid Squeeze Attention(PSA) 的有效轻量级即插即用注意力模块。所提出的 PSA 模块可以充分提取通道注意力向量中跨维度的大规模空间信息和重要特征。所提出的高效 Pyramid Squeeze Attention(EPSA) 块可以更细粒度地提高多尺度表示能力并开发远程通道依赖性。所提出的 EPSANet 可以有效地区分多尺度上下文特征和图像级分类信息。

2023-10-11 17:31:38 980 1

原创 Few-shot Image Classification Algorithm Based on Multi-scale Attention and Residual Network

在本文中,我们提出了一种名为 MARN 的新算法,它基于关系网络。为了丰富特征空间,我们使用不同尺度的卷积核对图像进行特征提取。为了加速网络收敛,我们使用残差连接。我们的实验表明,多尺度注意力和残差连接的引入是有效的。在标准 MiniImageNet 数据集和 Omniglot 数据集上,与关系网络相比,本文提出的方法显着提高了图像分类的准确性。

2023-10-10 11:10:30 273 1

原创 Clustered-patch Element Connection for Few-shot Learning

经典的小样本分类问题被指定为N-way K-shot 任务,这意味着仅使用每个类提供的 K 个标记实例解决 N 类分类问题。在最近的研究[Hou et al., 2019;Snell et al., 2017] 中,源数据集分为三个类别不相交的部分:训练集、验证集和测试集。此外,episodic训练机制被广泛采用。一个episode由两组组成(N 个类别中的随机抽样):支持和查询。令 S ={()}= N × K) 表示支持集,Q = {()}表示查询集。请注意,和是相应集的大小。

2023-08-12 21:23:06 674 3

原创 A novel method of data and feature enhancement for few-shot image classification

我们提出了一种数据增强方法来进行小样本分类。它不仅忘记支持图像和查询图像中的无用信息,而且增强了有效信息和类别特征。此外,所提出的数据增强方法使用随机零掩码来增强实验数据,而不增加样本数量,从特征增强和数据增强的角度提高了小样本分类的准确性。实验表明,所提出的方法在公共数据集上的性能优于几种最先进的方法。Cutout 模块只能应用于图像处理领域。同时,特征提升模块适用于其他领域进行特征图增强,这有可能在多个人工智能领域采用。考虑到现有的过拟合问题,我们未来的计划是探索无监督学习的思想来缓解这个问题。

2023-08-02 20:40:59 265

原创 Semantic Prompt for Few-Shot Image Recognition

小样本学习是一个具有挑战性的问题,因为只有少数示例被提供来识别新类。最近的几项研究利用额外的语义信息,例如类名的文本嵌入,通过将语义原型与视觉原型相结合来解决稀有样本的问题。然而,这些方法仍然受到从稀有支持样本中学习到的虚假视觉特征的影响,导致效益有限。在本文中,我们提出了一种用于小样本学习的新型语义提示 (SP) 方法。我们没有简单地利用语义信息来弥补分类器,而是探索利用语义信息作为提示来自适应地调整视觉特征提取网络。

2023-06-28 16:52:39 954 2

原创 Retrieval-Enhanced Visual Prompt Learning for Few-shot Classification

在本文中,我们提出了一个新的基于检索的框架RePrompt,它提高了提示学习方法在小样本分类任务中的性能。我们提出的方法由基于检索的适配器和检索增强的提示组成,以增加简单提示学习基线的不同阶段。大量的实验结果表明,该方法在小样本学习和域泛化方面均优于其他提示学习方法。我们希望我们的工作能够在以下值得关注的方向上激发进一步的研究:1)将提示学习扩展到其他下游任务,如分割2)探索检索以解决其他问题,如长尾分类。

2023-06-21 21:06:06 591

原创 Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models

预先训练的视觉-语言模型(例如CLIP)在许多具有适当设计的文本提示的下游任务中显示出有希望的zero-shot泛化。最近的工作不是依赖手工设计的提示,而是使用来自下游任务的训练数据来学习提示。在特定领域数据上的训练虽然有效,但会降低模型对未见的新领域的泛化能力。在这项工作中,我们提出了测试时间提示调优(TPT),这是一种可以使用单个测试样本动态学习自适应提示的方法。对于图像分类,TPT通过最小化置信度选择的熵来优化提示,以便模型在每个测试样本的不同增强视图中具有一致的预测。

2023-05-18 20:15:30 1554 1

原创 Visual Prompt Tuning

目前适应预训练模型的操作方法涉及更新所有backbone参数,即fine-tuning。本文介绍了视觉提示调优(Visual Prompt Tuning, VPT)作为一种高效的、有效的替代方案,用于大规模Transformer模型的视觉微调。VPT从最近高效调优大型语言模型的进展中获得灵感,在输入空间中只引入少量(不到模型参数的1%)可训练参数,同时保持模型主干冻结。通过对各种下游识别任务的广泛实验,我们表明,与其他参数高效调优协议相比,VPT实现了显著的性能提升。

2023-05-16 16:10:30 4506 5

原创 Self-Prompting Large Language Models for Open-Domain QA

Open-Domain Question answer(ODQA)是自然语言处理中一项长期存在的任务,其目的是在没有给定上下文的情况下,回答有关广泛世界知识的问题(Voorhees et al., 1999;无法访问大量外部知识语料库,即使对于人类来说,这也是一项挑战。现在最常见和事实上的ODQA方法是检索器-阅读器管道(Chen等人,2017):首先检索与问题最相关的文档,然后应用reader model提取或生成以这些文档为条件的最终答案(Karpukhin等人,2020;伊扎卡德和格雷夫,2021)

2023-05-15 11:01:22 1071 1

原创 UNIFIED VISION AND LANGUAGE PROMPT LEARNING

prompt tuning是一种参数和数据高效的迁移学习范式,它只对模型输入空间中的少量参数进行调优,自从CLIP这样的大型视觉语言模型出现以来,它已经成为视觉领域的一种趋势。本文系统地研究了两种有代表性的prompt tuning方法,即text prompt tuning和visual prompt tuning。

2023-04-26 19:40:01 913 2

原创 MaPLe: Multi-modal Prompt Learning

预训练的视觉语言(V-L)模型,如CLIP,在下游任务中显示出出色的泛化能力。但是,它们对输入文本提示的选择很敏感,需要仔细选择提示模板才能运行良好。受自然语言处理(NLP)文献的启发,最近的CLIP适应方法学习提示作为文本输入,以微调下游任务的CLIP。我们注意到,使用提示来适应CLIP(语言或视觉)的单个分支中的表示是次优的,因为它不允许在下游任务上灵活地动态调整两个表示空间。在这项工作中,我们提出了针对视觉和语言分支的多模态提示学习(MaPLe),以改善视觉和语言表征之间的一致性。

2023-04-24 21:41:20 2468 1

原创 CoOp & CoCoOp

本文揭示了CLIP模型如何使用提示学习转化为数据高效的学习者(在few-shot的例子中,其性能超过Linear probe CLIP和zero-shot CLIP),CoOp在领域泛化方面比手动提示表现得更好。这一结果有力地证明了提示学习在大型视觉模型中具有潜力。CoOp不算完美,但是是第一个在Vision-Language pretained model中用prompt learning。1.学到的结果(learned prompts)无法解释,因为把它们连起来似乎都不是什么正常语言表达。

2023-04-21 11:24:35 2749 5

原创 Exploring Visual Prompts for Adapting Large-Scale Models

我们研究了视觉提示(visual prompting)对大规模视觉模型的适应性。根据最近的从prompt tuning和adversarial reprogramming(对抗性重编程)的方法,我们学习了一个单一的图像扰动,这样一个被该扰动提示的冻结模型执行一个新的任务。通过综合实验,我们证明了视觉提示对CLIP尤其有效,并且对分布迁移具有鲁棒性,达到了与标准线性探测方法(Linear probes)相竞争的性能。我们进一步分析了下游数据集、提示设计和输出转换的特性,以适应性能。

2023-04-20 10:13:22 2895 6

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除