一、前言
人类通过诸如视觉和语言等多种渠道与世界进行互动的方式,每种渠道在表达和交流某些概念方面都有其独特的优势,这有助于更好地理解世界。人工智能的一个核心目标是开发一种通用助手,这种助手可以有效地跟随多模态(视觉和语言)指令,符合人类意图以完成各种真实环境中的任务。利用机器生成的指令跟随数据对大规模语言模型进行微调以改善其在新任务上的零样本能力方面,尽管这种方法在多模态领域探索较少,但已经被证明是有益的。
LLaVA(Large Language and Vision Assistant)首次尝试使用仅限语言的GPT-4来生成多模态语言-图像指令跟随数据,并通过这样的生成数据进行了指令微调。LLaVA是一个端到端训练的多模态大模型,将视觉编码器和大规模语言模型连接起来,用于一般用途的视觉和语言理解。为了促进未来关于视觉指令跟随的研究,LLaVA 作者构建了两个具有多样性和挑战性的面向应用的任务评估基准。实验表明,LLaVA展示了出色的多模态聊天能力,在未见过的图像/指令上有时表现出类似于多模态GPT-4的行为,并在一个合成的多模态指令跟随数据集上获得了相对于GPT-4的85.1%相对分数。当在Science QA上进行微调时,LLaVA和GPT-4的结合达到了92.53%的最高精度。
二、LLaVA 模型分析
LLaVA 模型 将CLIP 的视觉编码器与Vicuna 语言解码器连接起来,并在生成的指令型视觉-语言数据上进行端到端的微调。论文中实证研究表明,使用生成的数据对LMM进行指令微调是有效的,并提出了构建通用指令跟随视觉 agent 的实际建议。
订阅专栏 解锁全文
3万+

被折叠的 条评论
为什么被折叠?



