LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding

发表时间:2 Feb 2024

论文链接:https://arxiv.org/pdf/2306.17107

作者单位:Georgia Tech

Motivation指令调整增强了大型语言模型 (LLM) 与人类交互的能力。此外,最近的指令跟踪数据集包括图像作为视觉输入,收集基于图像的指令的响应。然而,当前的视觉指令调整模型不能很好地理解图像中的纹理细节

解决方法:这项工作使用文本丰富的图像(例如电影海报、书籍封面等)增强了当前的视觉指令调整管道。具体来说,我们首先使用公开可用的 OCR 工具从 LAION 数据集中收集 422K 文本丰富图像的结果(第一阶段使用)。此外,我们使用识别的文本和图像标题提示纯文本 GPT-4 以生成 16K 个对话(第二阶段使用),每个对话都包含用于文本丰富图像的问答对。

实现方式

文中用DiT作为骨架网络、RVL-CDIP数据集作为训练集训练了一个图像分类模型,对LAION-5B的图片进行了分类,把图片分为包含丰富文本信息、不包含文本信息的两部分,即把预测概率大于0.8同时满足p(watermark)<0.8 和 p(unsafe)<0.5 的图片作为一个候选集合。为了进一步清洗数据,文中随机选择了50K的图片应该是选了好多次才得到后面的422K文本信息丰富的图片),同时基于CLIP-ViT-B/32模型输出的视觉特征,把50K图片聚为100个cluster,然后把14个cluster选了出来(包含丰富文本的图片,包括海报、封面、广告、教育资料以及商标等)。

收集了两个数据集:

### 论文评估方法总结 论文《Training-free Subject-Enhanced Attention Guidance for Compositional Text-to-image Generation》提出了基于无训练主体增强注意力引导的方法来实现组合文本到图像生成的任务。以下是该文中涉及的主要评估方法: #### 1. 定量指标分析 为了衡量模型生成图像的质量以及其与输入文本的一致性,文章采用了多种定量评价标准,包括但不限于 Fréchet Inception Distance (FID)[^4] 和 Clip Score[^5]。这些指标能够有效反映生成图像的真实性和语义一致性。 - **Fréchet Inception Distance (FID)**: FID 值越低表示生成样本分布与真实数据分布之间的差异越小,从而表明更好的生成效果。 - **Clip Score**: 这一分数通过计算生成图片和对应描述之间相似度得分来进行评测,高分意味着更强的相关性。 #### 2. 主观视觉质量比较 除了上述客观数值外,研究者还进行了大规模的人类偏好测试实验,邀请参与者对比不同算法产生的结果并选出更优选项。这种方法可以弥补单纯依赖自动化测量可能存在的局限性,提供更加直观可靠的反馈信息[^6]。 #### 3. 对抗攻击鲁棒性的考察 考虑到实际应用场景中的复杂情况,本文特别设计了一些针对潜在干扰因素(如噪声注入)下的性能检验环节。具体而言,在保持其他条件不变的前提下向输入端引入不同程度随机扰动后再观察最终输出变化趋势如何受到影响[^7]。 ```python def calculate_fid(real_images, generated_images): """ Calculate the Frechet Inception Distance between real and generated images. Parameters: real_images (list): List of numpy arrays representing real image data points. generated_images (list): List of numpy arrays representing synthetic counterparts. Returns: float: The computed FID value indicating similarity level among two sets. """ pass def compute_clip_score(image_tensor, text_description): """ Compute CLIP score which reflects alignment degree between an individual piece of visual content alongside its associated linguistic annotation. Args: image_tensor (torch.Tensor): Tensor representation formating single frame instance. text_description (str): Natural language phrase describing target scene contextually. Return: double: Numerical assessment reflecting congruence status quantitatively. """ pass ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

KKdlg

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值