LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding

原创

已于 2024-08-06 20:09:34 修改 · 611 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #计算机视觉

于 2024-08-05 10:36:39 首次发布

发表时间：2 Feb 2024

论文链接：https://arxiv.org/pdf/2306.17107

作者单位：Georgia Tech

Motivation：指令调整增强了大型语言模型 (LLM) 与人类交互的能力。此外，最近的指令跟踪数据集包括图像作为视觉输入，收集基于图像的指令的响应。然而，当前的视觉指令调整模型不能很好地理解图像中的纹理细节。

解决方法：这项工作使用文本丰富的图像（例如电影海报、书籍封面等）增强了当前的视觉指令调整管道。具体来说，我们首先使用公开可用的 OCR 工具从 LAION 数据集中收集 422K 文本丰富图像的结果（第一阶段使用）。此外，我们使用识别的文本和图像标题提示纯文本 GPT-4 以生成 16K 个对话（第二阶段使用），每个对话都包含用于文本丰富图像的问答对。

实现方式：

文中用DiT作为骨架网络、RVL-CDIP数据集作为训练集训练了一个图像分类模型，对LAION-5B的图片进行了分类，把图片分为包含丰富文本信息、不包含文本信息的两部分，即把预测概率大于0.8同时满足p(watermark)<0.8 和 p(unsafe)<0.5 的图片作为一个候选集合。为了进一步清洗数据，文中随机选择了50K的图片（应该是选了好多次才得到后面的422K文本信息丰富的图片），同时基于CLIP-ViT-B/32模型输出的视觉特征，把50K图片聚为100个cluster，然后把14个cluster选了出来（包含丰富文本的图片，包括海报、封面、广告、教育资料以及商标等）。

收集了两个数据集：