多模态大模型 LLaVA

一、前言

人类通过诸如视觉和语言等多种渠道与世界进行互动的方式,每种渠道在表达和交流某些概念方面都有其独特的优势,这有助于更好地理解世界。人工智能的一个核心目标是开发一种通用助手,这种助手可以有效地跟随多模态(视觉和语言)指令,符合人类意图以完成各种真实环境中的任务。利用机器生成的指令跟随数据对大规模语言模型进行微调以改善其在新任务上的零样本能力方面,尽管这种方法在多模态领域探索较少,但已经被证明是有益的。

LLaVA(Large Language and Vision Assistant)首次尝试使用仅限语言的GPT-4来生成多模态语言-图像指令跟随数据,并通过这样的生成数据进行了指令微调。LLaVA是一个端到端训练的多模态大模型,将视觉编码器和大规模语言模型连接起来,用于一般用途的视觉和语言理解。为了促进未来关于视觉指令跟随的研究,LLaVA 作者构建了两个具有多样性和挑战性的面向应用的任务评估基准。实验表明,LLaVA展示了出色的多模态聊天能力,在未见过的图像/指令上有时表现出类似于多模态GPT-4的行为,并在一个合成的多模态指令跟随数据集上获得了相对于GPT-4的85.1%相对分数。当在Science QA上进行微调时,LLaVA和GPT-4的结合达到了92.53%的最高精度。

二、LLaVA 模型分析

LLaVA 模型 将CLIP 的视觉编码器与Vicuna 语言解码器连接起来,并在生成的指令型视觉-语言数据上进行端到端的微调。论文中实证研究表明,使用生成的数据对LMM进行指令微调是有效的,并提出了构建通用指令跟随视觉 agent 的实际建议。

模型结构

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

浅唱书令

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值