LLaVA 1.0:Visual Instruction Tuning

发表时间:NeurIPS 2023

论文链接:https://proceedings.neurips.cc/paper_files/paper/2023/file/6dcf277ea32ce3288914faf369fe6de0-Paper-Conference.pdf

作者单位:University of Wisconsin–Madison

Motivation:使用机器生成的指令跟踪数据对大型语言模型 (LLM) 进行指令调整已被证明可以提高新任务的零样本能力,但在多模态领域研究较少。

解决方法:我们提出了首次尝试使用仅语言 GPT-4 来生成多模态语言图像指令跟踪数据。通过对这些生成的数据进行指令调整,我们引入了 LLAVA:大型语言模型和视觉助手,这是一种端到端训练的大型多模态模型,连接视觉编码器和 LLM 以实现通用视觉和语言理解。为了促进未来对视觉指令的研究,我们构建了两个具有不同且具有挑战性的面向应用的任务的评估基准

实现方式

1. 数据收集:

LLaVA 利用 ChatGPT/GPT-4 作为强大的教师,创建涉及视觉内容的指令跟随数据。为了将图像编码为 LLM 可识别的序列,使用两种符号表示:

  1. 字幕(Captions):从各个角度描述视觉场景。

  2. 边界框(Bounding boxes

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ming_Chens

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值