发表时间:NeurIPS 2023
论文链接:https://proceedings.neurips.cc/paper_files/paper/2023/file/6dcf277ea32ce3288914faf369fe6de0-Paper-Conference.pdf
作者单位:University of Wisconsin–Madison
Motivation:使用机器生成的指令跟踪数据对大型语言模型 (LLM) 进行指令调整已被证明可以提高新任务的零样本能力,但在多模态领域研究较少。
解决方法:我们提出了首次尝试使用仅语言 GPT-4 来生成多模态语言图像指令跟踪数据。通过对这些生成的数据进行指令调整,我们引入了 LLAVA:大型语言模型和视觉助手,这是一种端到端训练的大型多模态模型,连接视觉编码器和 LLM 以实现通用视觉和语言理解。为了促进未来对视觉指令的研究,我们构建了两个具有不同且具有挑战性的面向应用的任务的评估基准。
实现方式:
1. 数据收集:
LLaVA 利用 ChatGPT/GPT-4 作为强大的教师,创建涉及视觉内容的指令跟随数据。为了将图像编码为 LLM 可识别的序列,使用两种符号表示:
-
字幕(Captions):从各个角度描述视觉场景。
-
边界框(Bounding boxes