本文是LLM系列文章,针对《Generative Multimodal Models are In-Context Learners》的翻译。
摘要
人类在上下文中轻松解决多模态任务的能力(即,只需几次演示或简单指令),是当前多模态系统在很大程度上难以模仿的。在这项工作中,我们证明了大型多模态模型的任务不可知上下文学习能力可以通过有效的扩展得到显著增强。我们介绍了Emu2,这是一个具有370亿个参数的生成多模态模型,在具有统一自回归目标的大规模多模态序列上训练。Emu2表现出强大的多模态上下文学习能力,甚至可以解决需要动态推理的任务,如视觉提示和基于对象的生成。该模型创下了在小样本环境下进行多模态理解任务的新纪录。当指令被调整为遵循特定指令时,Emu2在具有挑战性的任务上进一步达到了最先进的水平,如大型多模态模型的问答基准和开放式主题驱动的生成。这些成果表明,Emu2可以作为一个基础模型和通用接口,用于各种多模态任务。代码和模型是公开的,以促进未来的研究。
1 引言
2 方法
3 评估
4 相关工作
5 广泛的影响和局限性
6 结论
我们提出了一个370亿参数的生成多模态模型Emu2,该模型在上下文环境中的许多多模态任务上表现出强大的性能和多功能性。Emu2作为各种多模态任务的基础模型和通用接口。我们在多模态理解和生成的广泛基准上展示了最先进的结果。具体而言,我们的模型在很大程度上超过了之前关于最近提出的LMM基准的工作,与经典的学术基准相比,LMM基准需要更先进的能力。Emu2在多模态上下文中也表
本文介绍了Emu2,一个370亿参数的生成多模态模型,它在小样本环境中展示出强大的多模态任务处理能力,尤其在动态推理和视觉提示方面。Emu2在多模态理解和生成任务中达到SOTA,并作为一个通用接口用于各种任务。尽管存在局限性,但研究表明大规模生成多模态模型可能是构建通用多模态系统的进步。
已下架不支持订阅
1822

被折叠的 条评论
为什么被折叠?



