《MaPLe: Multi-modal Prompt Learning》论文解读_最新版

原创

已于 2024-09-15 13:10:19 修改 · 1k 阅读

·

19

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2024-09-11 14:37:35 首次发布

系列文章目录

文章目录

系列文章目录

论文细节理解

预训练的视觉语言（V-L）模型，如CLIP，已经显示出对下游任务的出色泛化能力。然而，它们对输入文本提示的选择很敏感，需要仔细选择提示模板才能良好地执行。受自然语言处理（NLP）文献的启发，最近的CLIP适应方法将提示作为文本输入来学习，以微调CLIP用于下游任务。我们注意到，使用提示来适应CLIP（语言或视觉）的单个分支中的表示是次优的，因为它不允许在下游任务上动态调整两个表示空间的灵活性。这段话中“它不允许在下游任务上动态调整两个表示空间的灵活性。”什么意思
这段话中的“它不允许在下游任务上动态调整两个表示空间的灵活性”指的是，当前的方法在适应CLIP模型时，通常只调整语言分支或视觉分支中的一个表示空间，而不是同时调整两个表示空间。由于CLIP模型是一个多模态模型，它将视觉和语言表示融合在一起以执行各种任务。如果我们只调整其中一个分支（如视觉或语言）来适应某个特定任务，这就限制了另一个分支的灵活性，导致模型在下游任务中不能充分利用两种表示空间的动态调整能力。换句话说，当前的方法可能只优化语言提示或视觉表示中的一个，而不是在任务需求的基础上同时优化和协调这两者。这种单一分支的调整方式限制了模型在适应新任务时的表现，因为它不能灵活地调节两个表示空间（视觉和语言）的互相作用。要在下游任务中取得更好的效果，需要一种能够动态调整和优化两个表示空间的方法，而不仅仅是对单个分支进行调整。
基础视觉语言（V-L）模型，如CLIP（对比图像预训练）[32]已经显示出对下游任务的出色泛化能力。这种模型经过训练，以在网络规模的数据上对齐语言和视觉模态，例如，CLIP中有4亿个文本图像对。由于自然语言提供了丰富的监督，这些模型可以推理开放词汇的视觉概念。在推断期间，使用手工设计的文本提示，比如’‘a photo of a '作为查询文本的编码器。将输出文本嵌入与来自图像编码器的视觉嵌入进行匹配以预测输出类。设计高质量的上下文提示已被证明可增强CLIP和其他V-L模型的性能[17，42]。这段话中“这些模型可以推理开放词汇的

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。