LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding

发表时间:2 Feb 2024

论文链接:https://arxiv.org/pdf/2306.17107

作者单位:Georgia Tech

Motivation指令调整增强了大型语言模型 (LLM) 与人类交互的能力。此外,最近的指令跟踪数据集包括图像作为视觉输入,收集基于图像的指令的响应。然而,当前的视觉指令调整模型不能很好地理解图像中的纹理细节

解决方法:这项工作使用文本丰富的图像(例如电影海报、书籍封面等)增强了当前的视觉指令调整管道。具体来说,我们首先使用公开可用的 OCR 工具从 LAION 数据集中收集 422K 文本丰富图像的结果(第一阶段使用)。此外,我们使用识别的文本和图像标题提示纯文本 GPT-4 以生成 16K 个对话(第二阶段使用),每个对话都包含用于文本丰富图像的问答对。

实现方式

文中用DiT作为骨架网络、RVL-CDIP数据集作为训练集训练了一个图像分类模型,对LAION-5B的图片进行了分类,把图片分为包含丰富文本信息、不包含文本信息的两部分,即把预测概率大于0.8同时满足p(watermark)<0.8 和 p(unsafe)<0.5 的图片作为一个候选集合。为了进一步清洗数据,文中随机选择了50K的图片应该是选了好多次才得到后面的422K文本信息丰富的图片),同时基于CLIP-ViT-B/32模型输出的视觉特征,把50K图片聚为100个cluster,然后把14个cluster选了出来(包含丰富文本的图片,包括海报、封面、广告、教育资料以及商标等)。

收集了两个数据集:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ming_Chs

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值