MaPLe: Multi-modal Prompt Learning

828 篇文章

已下架不支持订阅

MaPLe是针对多模态大语言模型的研究,旨在提高视觉和语言表示的一致性。它通过在视觉和语言分支上同时进行提示学习,促进强耦合和协同作用,以增强下游任务的泛化能力。实验表明,MaPLe在11个图像识别数据集上优于现有方法,特别是在新类别和跨领域任务中展现出优越性能。

本文也是LLM系统的文章,主要是面向多模态的大语言模型,针对《MaPLe: Multi-modal Prompt Learning》的翻译。

MaPLe:多模态提示学习

摘要

CLIP等预先训练的视觉语言(V-L)模型对下游任务表现出了出色的泛化能力。但是,它们对输入文本提示的选择很敏感,需要仔细选择提示模板才能执行良好的操作。受自然语言处理(NLP)文献的启发,最近的CLIP自适应方法学习提示作为文本输入,以微调CLIP用于下游任务。我们注意到,在CLIP的单个分支(语言或视觉)中使用提示来调整表示是次优的,因为它不允许在下游任务上动态调整两个表示空间的灵活性。在这项工作中,我们提出了视觉和语言分支的多模式提示学习(MaPLe),以提高视觉和语言表征之间的一致性。我们的设计促进了视觉语言提示之间的强耦合,以确保相互协同,并阻止学习独立的单一模式解决方案。此外,我们在不同的早期阶段学习不同的提示,以逐步建立阶段特征关系的模型,从而实现丰富的上下文学习。我们评估了我们的方法在三个代表性任务上的有效性,即对新类的泛化、新的目标数据集和看不见的领域迁移。与最先进的方法CoCoOp相比,MaPLe表现出良好的性能,在11个不同的图像识别数据集上平均,在新类别上实现了3.45%的绝对增益,在总体谐波平均值上实现了2.72%的绝对增益。我们的代码和预训练模型可在https://github.com/muzairkhattak/multimodalprompt-learning找到.

1 引言

2 相关工作

3 方法

4

已下架不支持订阅

### 多模态提示学习在MaPLe框架中的应用 #### MaPLe框架概述 MaPLeMulti-modal Prompt Learning)旨在通过多模态提示学习提升图像和文本表示之间的一致性。该方法设计的核心在于促进视觉-语言间的强耦合,确保两者能够相互协同工作而不是各自独立发展[^3]。 #### 提示机制的工作原理 为了实现这一目标,在模型的不同阶段引入了不同的提示,这有助于逐步建立并优化不同层次上的特征关联。具体来说,这些提示被嵌入到视觉和语言处理路径的各个转换器层中,使得每一层都能专注于特定类型的跨模态交互模式的学习过程[^4]。 #### 实现细节 以下是Python代码片段展示了如何在一个假设性的场景下初始化一个多模态提示模块: ```python class MultiModalPromptModule(nn.Module): def __init__(self, num_layers=12): super(MultiModalPromptModule, self).__init__() self.prompt_layers = nn.ModuleList([nn.Linear(768, 768) for _ in range(num_layers)]) def forward(self, visual_features, textual_features): combined_features = torch.cat((visual_features, textual_features), dim=-1) outputs = [] for layer in self.prompt_layers: output = F.relu(layer(combined_features)) outputs.append(output) return sum(outputs)/len(outputs) ``` 此代码定义了一个简单的`MultiModalPromptModule`类,它接受来自视觉和文本输入的特征向量作为参数,并返回经过一系列线性变换后的平均结果。实际部署时会更加复杂,涉及更多组件和技术细节。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值