LLaVA 1.0：Visual Instruction Tuning

原创

已于 2024-08-06 20:10:11 修改 · 626 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #深度学习

于 2024-08-05 10:32:23 首次发布

发表时间：NeurIPS 2023

论文链接：https://proceedings.neurips.cc/paper_files/paper/2023/file/6dcf277ea32ce3288914faf369fe6de0-Paper-Conference.pdf

作者单位：University of Wisconsin–Madison

Motivation：使用机器生成的指令跟踪数据对大型语言模型 (LLM) 进行指令调整已被证明可以提高新任务的零样本能力，但在多模态领域研究较少。

解决方法：我们提出了首次尝试使用仅语言 GPT-4 来生成多模态语言图像指令跟踪数据。通过对这些生成的数据进行指令调整，我们引入了 LLAVA：大型语言模型和视觉助手，这是一种端到端训练的大型多模态模型，连接视觉编码器和 LLM 以实现通用视觉和语言理解。为了促进未来对视觉指令的研究，我们构建了两个具有不同且具有挑战性的面向应用的任务的评估基准。

实现方式：

1. 数据收集：

LLaVA 利用 ChatGPT/GPT-4 作为强大的教师，创建涉及视觉内容的指令跟随数据。为了将图像编码为 LLM 可识别的序列，使用两种符号表示：

字幕（Captions）：从各个角度描述视觉场景。
边界框（Bounding boxes）：通常定位场景中的对象，每个框编码对象概念及其空间位置。

LLaVA 收集了总共 158K 个唯一的语言-图像指令跟随样本，包括对话、详细描述和复杂推理三种类型的响应。

2.模型结构

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

KKdlg 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。