论文:Language Is Not All You Need: Aligning Perception with Language Models
链接:https://arxiv.org/pdf/2302.14045
Introduction
- 定位:一个多模态大语言模型可以处理通用模态,在上下文中学习(few-shot)并遵从指令(zero-shot),原文【a Multimodal Large Language Model (MLLM) that can perceive general modalities, learn in context (i.e., few-shot), and follow instructions (i.e., zero-shot)】
- 通过任意交错的文本图像,图像标题对和文本等网络多模态数据中从头学习。
- 没有任何微调操作,使用zero-shot, few-shot, and multimodal chain-of-thought prompting评估
- 评估任务包括,语言理解,生成和文档图像NLP任务,以及多模态对话,图像标题,vqa,和一系列视觉任务(image recognition with descriptions),MLLM can benefit from cross-modal transfer。
其任务形式化如下:
其评估任务如下: