本文是LLM系列文章,针对《MetaVL: Transferring In-Context Learning Ability From Language Models to Vision-Language Models》的翻译。
摘要
大规模的语言模型已经显示出通过一些演示(即上下文学习)来适应新任务的能力。大规模的语言模型已经显示出通过一些演示(即上下文学习)来适应新任务的能力。然而,在视觉语言领域,大多数大规模的预训练视觉语言(VL)模型不具备进行上下文学习的能力。我们如何实现VL模型的上下文学习?在本文中,我们研究了一个有趣的假设:我们可以将上下文学习能力从语言领域转移到VL领域吗?具体来说,我们首先对语言模型进行元训练,以在NLP任务上执行上下文学习(如在MetaICL中);然后我们通过附加视觉编码器来转移该模型以执行VL任务。我们的实验表明,在上下文中的学习能力确实可以跨模态转移:我们的模型显著提高了VL任务的上下文中学习能力,甚至可以显著补偿模型的大小。在VQA、OK-VQA和GQA上,我们的方法可以优于基线模型,同时参数减少~20倍。
1 引言
2 相关工作
3 方法
4 实验
5 结论
我们研究了将用于情境学习的元学习知识从资源丰富的单一模式转移到多模式的可行性。我们已经证明,通过在VL模型中利用元训练的语言模型,我们可以将上下文中的“学习到学习”的能力转移到VL,这会导