MetaVL: Transferring In-Context Learning Ability From Language Models to Vision-Language Models

828 篇文章

已下架不支持订阅

大规模语言模型能通过上下文学习适应新任务,但视觉语言模型(VL)通常不具备此能力。本文提出MetaVL,研究将语言模型的上下文学习能力转移至VL的可行性。经过元训练,VL模型在VQA等任务上的小样本学习表现提升,且参数量减少约20倍。然而,方法在VQA任务的适用性和大型语言模型的效果仍有待进一步验证。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《MetaVL: Transferring In-Context Learning Ability From Language Models to Vision-Language Models》的翻译。

MetaVL:语境学习能力从语言模型向视觉语言模型的迁移

摘要

大规模的语言模型已经显示出通过一些演示(即上下文学习)来适应新任务的能力。大规模的语言模型已经显示出通过一些演示(即上下文学习)来适应新任务的能力。然而,在视觉语言领域,大多数大规模的预训练视觉语言(VL)模型不具备进行上下文学习的能力。我们如何实现VL模型的上下文学习?在本文中,我们研究了一个有趣的假设:我们可以将上下文学习能力从语言领域转移到VL领域吗?具体来说,我们首先对语言模型进行元训练,以在NLP任务上执行上下文学习(如在MetaICL中);然后我们通过附加视觉编码器来转移该模型以执行VL任务。我们的实验表明,在上下文中的学习能力确实可以跨模态转移:我们的模型显著提高了VL任务的上下文中学习能力,甚至可以显著补偿模型的大小。在VQA、OK-VQA和GQA上,我们的方法可以优于基线模型,同时参数减少~20倍。

1 引言

2 相关工作

3 方法

4 实验

5 结论

我们研究了将用于情境学习的元学习知识从资源丰富的单一模式转移到多模式的可行性。我们已经证明,通过在VL模型中利用元训练的语言模型,我们可以将上下文中的“学习到学习”的能力转移到VL,这会导

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值