集智书童 | HQ-CLIP横空出世!10亿参数模型让图像检索性能飙升11.7%

HQ-CLIP:基于LVLM的高质量图像文本对训练

本文来源公众号“集智书童”,仅用于学术分享,侵权删,干货满满。

原文链接:https://mp.weixin.qq.com/s/ugO80t6aaFd6jkgt3LMadA

精简阅读版本

本文主要解决了什么问题

  1. 1. 大规模网络爬取的图像-文本对数据存在噪声问题,包括文本不匹配(无关内容)和描述不足(缺乏视觉具体性的通用字幕)。

  2. 2. 现有的图像-文本数据增强方法存在信息不对称问题(单模态增强策略)或计算复杂度高的问题(混合增强策略)。

  3. 3. 如何利用大型视觉语言模型(LVLMs)来提升图像-文本对数据的质量,从而创建更高质量的CLIP模型,实现持续改进。

本文的核心创新是什么

  1. 1. 提出了一种高效且有效的LVLM驱动数据精炼流程,利用单个LVLM同时处理图像和配对文本,生成四种互补的文本公式:长正描述、长负描述、短正标签和短负标签。

  2. 2. 创建了VLM-150M数据集,这是一个从DFN-Large衍生的高质量图像文本对数据集,包含1.5亿图像-文本对,具有多粒度描述。

  3. 3. 提出了HQ-CLIP训练框架,结合了硬负样本识别(HNI)进行细粒度理解和短标签分类(STC)进行类别语义识别,通过新的监督信号扩展了传统的对比学习。

结果相较于以前的方法有哪些提升

  1. 1. 在零样本分类和跨模态检索任务中,HQ-CLIP相较于在相似数据规模上训练的其他模型表现出更优越的性能。在检索基准测试中,HQ-CLIP甚至超越了在包含比作者多10倍训练数据的DFN-2B数据集上训练的标准CLIP模型。

  2. 2. 当作为LLaVA-1.5的视觉主干时,HQ-CLIP在同等预训练规模下优于其他ViT-B架构,展示了其作为LVLMs优越视觉编码器的潜力。

  3. 3. 在多个多模态基准测试中,包括MME、MMBench-En、MMStar和SEEDBench-IMG,HQ-CLIP展现了最先进的零样本泛化能力。

局限性

HQ-CLIP在可比的训练规模下实现了当前最佳性能,但基于VLM-150M的解决方案仍落后于DFN-5B的能力。继续投入资源将VLM-150M扩展到数十亿样本规模,并将HQCLIP升级到ViT-L架构仍至关重要。

深入阅读版本

导读

大规模但含噪声的图像-文本对数据为对比语言-图像预训练(CLIP)的成功铺平了道路。作为基础视觉编码器,CLIP反过来成为大多数大规模视觉语言模型(LVLMs)的基石。这种相互依赖性自然引出了一个有趣的问题:作者能否反过来利用LVLMs来提升图像-文本对数据的质量,从而开启ego强化的循环以实现持续改进?在这项工作中,作者通过引入一个LVLM驱动的数据精炼流程,朝着这一愿景迈出了重要一步。HQ-CLIP利用LVLMs处理图像及其原始替代文本,生成四个互补的文本公式:长正描述、长负描述、短正标签和短负标签。将此流程应用于精选的DFN-Large数据集,生成了VLM-150M,这是一个富含多粒度标注的精炼数据集。基于此数据集,作者进一步提出了一种训练范式,通过结合负描述和短标签作为额外的监督信号来扩展传统的对比学习。所得模型,即HQCLIP,在多个基准测试中表现出显著改进。在可比的训练数据规模下,HQ-CLIP在零样本分类、跨模态检索和细粒度视觉理解任务中实现了最先进性能。在检索基准测试中,HQ-CLIP甚至超越了在包含比作者多训练数据的DFN-2B数据集上训练的标准CLIP模型。

所有代码、数据和模型:https://zxwei.site/hqclip/

1. 引言

对比语言图像预训练(CLIP)[24]框架在多模态学习领域代表了关键的突破。通过在大规模图像-文本数据集上对齐视觉和文本表征,CLIP建立了视觉与语言之间的通用桥梁。由于其强大的能力,CLIP迅速主导了许多多模态任务,如零样本分类、开放集检测[15, 43]和跨模态检索。

近年来,大语言模型(LLMs)的爆发式增长进一步拓展了CLIP的应用边界。一个有前景的进展在于通过标准化的架构范式如LLaVA [18-20]将LLMs与CLIP(或其变体[41])无缝集成。这些系统通常通过多阶段对齐训练将预训练的LLMs与CLIP视觉编码器统一起来,将视觉表征映射到语言嵌入空间以实现连贯的多模态理解。由此产生的架构通常被称为大型视觉语言模型(LVLMs),它们有效地为LLMs赋予了"眼睛",实现了类人感知能力。

鉴于CLIP在使LVLMs实现鲁棒多模态理解中的基础性作用,自然引出了LVLMs能否反过来增强CLIP能力的问题。现有文献初步支持这一可能性,主要通过向CLIP训练数据中添加合成生成的图像-文本对的方法来实现。在这一研究方向中,当前研究大致可分为两种范式。第一种范式采用单模态增强策略。例如,LaCLIP [5]利用LLMs重写文本描述,但未包含视觉上下文;WhatIf [17]训练LVLM生成图像描述,同时忽略原始配对的文本。这类方法可能存在信息不对称问题,因为它们忽视了现实世界图像-文本对中的跨模态关联。第二种范式提出混合增强策略,联合融合视觉和文本信息,但依赖于级联架构。代表性工作如CapFusion [37]和VeCLIP [13]首先使用图像描述模型提取视觉描述,然后基于LLM将这些描述与原始文本进行融合。虽然这些方法解决了模态不平衡问题,但它们的级联流程引入了计算复杂度,并可能导致跨阶段的潜在错误传播。

为解决信息丢失和架构复杂性的问题,作者将图像-文本数据生成流程统一为简洁的形式。具体而言,作者采用单个LVLM同时处理图像和配对文本,生成丰富的文本描述。在此极简框架下,仅需考虑两个设计选择:1)选择合适的LVLM架构,以及2)设计有效的文本 Prompt 以指导描述生成。

在模型选择方面,虽然采用当前顶尖的视觉语言模型(LVLMs),如GPT-4o [11]、Gemini [30]或QWen2-VL-72B [33]可能看似直观,但它们的巨大成本使得它们不适用于大规模数据集。为了应对这一可扩展性挑战,作者引入了一种成本高效的范式。首先,作者使用GPT-4o精选了10,000个高质量的重新描述样本。随后,作者对紧凑型开源LVLMs [3, 20, 33]进行监督微调(SFT),以使其在该特定任务中与GPT-4o保持一致。最后,作者部署微调后的LVLMs进行高效的超大规模数据处理。作者进行了中等规模的实验来验证作者的设计。如表1所示,SFT增强的QWen2-VL-7B取得了与其72B版本相当的结果,同时显著减少了9倍的计算资源需求。

为了生成丰富的描述,作者提出了一种新颖的方法,以综合四种互补的公式:长正描述、长负描述、短正标签和短负标签。该设计基于两个原则。首先,长描述与短标签之间的区别为语义表示提供了双重粒度,从而实现更全面的视觉文本对齐。其次,正语义与负语义之间的对比引入了细粒度的判别信号,增强了CLIP辨别细微视觉文本差异的能力。

利用作者的LVLM驱动处理流程,作者引入了VLM-150M,这是一个从DFN-Large衍生的高质量图像文本对数据集。此外,作者基于该数据集开发了一个CLIP模型,名为HQ-CLIP。在下游任务中的大量实验验证了作者提出方法的有效性。在零样本分类和跨模态检索任务中,HQ-CLIP相较于在相似数据规模上训练的其他模型表现出更优越的性能。

简而言之,本文的主要贡献如下:

  • • 作者介绍了一种高效且有效的LVLM驱动数据精炼流程,并将其应用于DFN-Large,创建了VLM-150M,这是一个包含1.5亿图像-文本对的高质量数据集,这些数据对由最先进的LVLM生成,并具有多粒度描述。

  • • 作者提出了HQ-CLIP,一个结合了硬负样本识别(HNI)进行细粒度理解和短标签分类(STC)进行类别语义识别的专业框架。

  • • 通过在三个数量级(1M至150M样本)范围内进行大规模实验,并在38个基准数据集上进行评估,HQ-CLIP展现出最先进的零样本泛化能力。该模型在跨模态检索方面表现出色,超越了DFN-2B。当作为LLaVA-1.5的视觉主干时,HQ-CLIP在同等预训练规模下优于其他ViT-B架构,展示了其作为LVLMs优越视觉编码器的潜力。

2. 相关工作

对比语言图像预训练(CLIP)。CLIP已成为视觉语言对齐的基础框架。其架构由OpenAI开创[24],采用双编码器结构,包含独立的视觉和文本 Transformer ,通过大规模图像文本对的对比学习进行优化。OpenCLIP[12],一个由社区驱动的再实现版本,进一步推广了这种范式的应用。后续研究主要集中于三个方向:1)数据优化,2)架构创新,3)监督细化。架构创新在多个维度上扩展了CLIP的能力,例如空间扩展[25]、时间扩展[34]和模型规模扩展[2, 29]。在监督细化方面,研究行人探索了超越传统对比学习的训练损失,包括 Mask 重建[7]、自监督损失[22]、字幕损失[36]、位置感知损失[32]、Sigmoid损失[31, 41]等。作者的工作还引入了新的监督信号,以充分利用生成的短标签和负面语义。

图像-文本数据集构建。CLIP模型的性能依赖于对齐图像-文本对的质量和规模。早期工作[27, 28]利用网络规模爬取收集数亿至数十亿对数据,但存在固有限制,包括文本不匹配(无关内容)和描述不足(缺乏视觉具体性的通用字幕)。后续改进采用两种互补策略:1)数据过滤:DataComp[9]和DFN[6]等方法通过CLIP引导的相似度阈值增强对齐,生成过滤后的子集(通常占原始数据的10-30%),从而获得更好的训练效果;MetaCLIP[35]通过文本计数过滤训练数据,使语义概念的分布更加均衡;2)字幕增强:LaCLIP[5]和WhatIf[17]使用LLM或LVLM重新生成字幕,但仅在单模态范式下操作。CapFusion[37]、VeCLIP[13]和fusecap[26]等混合方法通过级联LVLM+LLM Pipeline 组合图像-文本输入,以增加计算复杂度为代价实现更好的对齐。值得注意的是,现有增强方法仅生成长文本描述。作者的工作通过开发可扩展的LVLM驱动框架,在保持计算效率的同时生成多粒度文本描述,推进了这一范式。

3. 方法

3.1. 初步

3.2. 数据集增强流程

这种结构化 Prompt 使GPT-4o能够生成与图像对齐的描述,同时保持与提供示例一致的格式。然而,由于处理整个百万规模数据集的API成本过高,作者策略性地使用GPT-4o生成了10,000对高质量图像-文本对。

SFT增强的开源LVLMs字幕生成。对于完整数据集的处理,作者采用7B开源LVLMs。基准研究[1, 38]表明,这些模型在指令合规性和字幕准确性方面均低于GPT-4o等闭源模型,作者通过使用GPT-4o生成的图像-文本对进行监督微调(SFT)来缓解这些局限性。具体而言,SFT过程增强了模型遵循复杂指令和生成语义精确字幕的能力。如表1所示,在处理中等规模数据集时,SFT增强的Qwen2VL-7B表现出与Qwen2VL-72B相似的性能。

为确定作者优化流程中最佳的低维语言模型(LVLM),作者对三个最先进的候选模型进行了系统评估:LLaVA-Next[20]、Qwen2VL[33]和XComposer2[3]。通过在中等规模数据集上的DataComp评估结果(见表1),Qwen2VL展现出更优的性能。这一经验证据促使作者最终选择Qwen2VL作为优化流程的核心处理器。

多粒度双向描述集。为了利用LVLMs的指令跟随能力和组合关系推理能力,作者提出生成一个包含四个互补组件的多粒度双向描述集:

3.3. HQ-CLIP

混合训练。作者首先使用VLM-150M实现标准的CLIP训练框架。对于每个描述集,作者仅使用作为标题。

CLIP文本编码器的77个token限制下,作者将长句分割成多个片段,并在每次迭代中随机选择一个片段,如图5和第4.4节所述。与[23]一致,作者发现仅使用生成数据集进行训练会导致性能欠佳,这可能是由于合成数据集分布的均一性限制了模型的泛化能力。为解决这一问题,作者对原始数据集和优化数据集的混合数据集进行标准的CLIP训练:

短标签分类。虽然详细的文本描述能够增强标题的丰富性,但过多的信息密度可能会掩盖关键的类别语义。某些任务可能仅需识别主要目标。例如,ImageNet分类通常采用简洁的 Prompt ,如“一张[类别]的照片”,而不附加额外细节。受[10]启发,作者引入了一种双流学习框架,该框架同时处理1) 完整描述以实现全面的属性理解,以及2) 简洁的类别标签以进行类别识别。这种双路径保持了模型进行细粒度分析和类别识别的能力,确保其与多种评估范式兼容。

4. 实验

4.1. 设置

数据。作者的实验框架采用DFN [6] 和DataComp [9] 的数据集配置,使用CommonPool语料库作为基础数据源。CommonPool从2014-2022年Common Crawl数据集中聚合了网络爬取的图像-文本对。作者提供三种标准化的基准规模:小规模(12.8M对)、中规模(128M对)和大规模(1.28B对)。

为确保与DFN直接可比性,作者采用其过滤后的CommonPool子集作为训练数据。DFN基准提供了包含1.92M和192M候选对的中型和大型配置。然而,部分URL不可访问,导致在作者的实现中有效数据集规模分别为1470万(中型)和1.466亿(大型)recasual.weations home decor jewelry fashion accessory sunny day interior-design ee.dessert conhature对。作者通过从DFN中型子集中随机采样1/10(1470万对)构建小型 Baseline 。为确保评估的全面公平性,作者报告了原始DFN基准结果(已发布)以及使用获取子集复现的结果( Token 为t)。详细信息见附录。消融实验在中型规模上进行。

训练。作者采用与DFN [6]相同的训练配置,包括优化器类型、批大小、学习率、权重衰减和学习率调度器。对于大规模实验,作者将训练轮数增加以适应更丰富的文本描述信息,将总样本数设置为320亿。作者的HQ-CLIP和复现的DFN实现在整个实验过程中始终保持相同的超参数设置。作者使用open clip [12]代码库进行实现。

评估。作者的评估采用两个基准。对于零样本分类和检索,作者遵循DataComp的协议[9],该协议评估五个关键指标:ImageNet-1K (IN)、IN分布迁移 (IN-shifts)、视觉任务适应基准 (VTAB) [40]、检索性能以及跨38个多样化数据集的平均得分。此外,作者还使用了多个多模态基准,包括MME[8]、MMBench-En[21]、MMStar[1]和SEEDBench-IMG[14],并使用VLMEvalKit [4]进行评估。为了评估细粒度视觉理解能力,作者利用ARO基准[39]并新增两个任务:视觉基因组归因和视觉基因组关系。

4.2. 数据集分析

图3展示了VLM-150M的详细描述与原始标题的比较长度分布。丰富文本的平均长度比原始标题高出4倍。此外,作者使用三个指标评估数据质量:a) 使用OpenAI CLIP-Large计算图像-文本余弦相似度;b) 参照[17]使用GPT-4o对合成标题进行评分;c) 参照数据过滤网络(DFN)评估在相应合成数据上训练的CLIP模型的零样本性能。评估a、b和c覆盖的数据样本量分别为1M、10K和147M。图4a和4b表明HQ-CLIP提升了数据质量,而图4c显示在SFT增强数据上训练的CLIP模型表现最佳。

4.3. 与当前最优方法的比较

Datacomp基准评估。作者在38个分类和检索任务上进行了全面评估,与最先进的数据过滤和重新配文字段方法进行基准测试。如表2所示,HQ-CLIP在所有规模(小/中/大)上均展现出对竞争对手的持续性能优势。遵循大多数 Baseline 方法使用CommonPool子集的标准做法,作者采用DFN[6]作为主要 Baseline 。在相同的超参数配置下,HQ-CLIP在检索性能上显著优于DFN \dag ,在COCO上实现了+8.6%的提升,在Flickr30K上实现了+11.7%的提升,且数据集规模相当。值得注意的是,作者的大规模实现甚至超过了DFN的20亿数据模型(DFN-2B:COCO 51.9%,Flickr 77.3%),同时使用显著较小的1.5亿规模数据集,分别达到了52.5%和77.9%的更优指标。

为展示HQ-CLIP的可扩展性,作者进一步在XLarge规模上提供了结果。作者改进了DFN-XLarge,开发了VLM-1B,其中包含14亿个高质量样本。考虑到计算限制,作者使用CLIPA [16]对两者进行训练,仅报告了 Baseline 方法和作者完整方法的结果。

LLaVA基准评估。为了更好地研究所提出的数据库和训练框架对视觉理解能力的影响,作者使用LLaVA1.5 [18]和VLMEvalKit [4]进行了实验。如表5所示,作者用作者训练好的CLIP视觉编码器替换了LLaVA1.5中的标准视觉塔,并严格按照原始文档中描述的方法重复了预训练和微调过程。在可比的训练数据规模下,HQ-CLIP在多个多模态基准测试中的性能超越了其他ViT-B模型。

4.4. 消融研究

主要组件的消融实验。表3量化了VLM 150M数据集和所提出的HQ-CLIP框架带来的性能提升。VLM 150M数据集在所有尺度上始终提升CLIP性能,显示出其相较于DFN更优越的数据质量。此外,HQ-CLIP在应用于VLM-150M时,在Small/Medium/Large尺度上分别带来的额外增益。这种跨尺度的稳定性验证了HQ-CLIP的有效性,而性能的逐步提升表明更大规模的模型能更广泛地受益于其多粒度监督信号(负面描述和短标签)。

HQ-CLIP上的消融实验。如表6所示,作者使用作者复现的DFN作为 Baseline ,在中尺度上进行了系统的消融研究。通过混合训练初步整合作者的VLM-150M数据集,展示了其基本有效性,实现了的显著性能提升。此外,引入硬负描述和短标签分类范式显著提升了性能,带来了额外的的性能提升。

文本长度消融实验。过长的文本会损害CLIP训练的有效性[42]。作者研究了最佳文本长度,比较了三种策略:完整生成的描述、生成的短文本以及从长描述中随机采样的短文本(以原始标题作为 Baseline )。如图5所示,损失最高的方法实现了最佳的零样本泛化,而损失最低的方法表现最差。这在Flickr30K检索中尤为明显,随机采样显著优于其他方法。这表明过于详细的描述降低了对比学习的难度。考虑到这一现象和CLIP固有的77-token限制[24],作者采用从生成描述中随机采样短文本。用于分割句子的标点符号由LVLM生成。

混合比例和权重的消融研究。作者进行消融分析,考察混合训练比例 、硬负样本识别损失权重  和短标签分类损失权重 。如表7所示,作者经验性地确定75%为最佳混合比例。关于  和  的实验结果在补充材料中提供。

5. 局限性与结论

作者提出了一种基于LVLM的高效数据集优化流程,将DFN-Large转换为VLM-150M——一个具有多粒度描述的高质量图像文本数据集。这些互补的文本描述支持作者提出的训练范式HQ-CLIP,该范式通过负向描述和短标签监督扩展了传统的对比学习。全面的评估表明,HQ-CLIP在零样本分类、检索和理解任务中均表现出优越性能。当作为LLaVA的视觉编码器替代时,HQ-CLIP的性能优于同等预训练规模的CLIP模型,凸显了其在推动LVLM发展方面的潜力。

HQ-CLIP在可比的训练规模下实现了当前最佳性能,但基于VLM-150M的解决方案仍落后于DFN-5B的能力。继续投入资源将VLM-150M扩展到数十亿样本规模,并将HQCLIP升级到ViT-L架构仍至关重要。作者希望未来的研究能够通过利用多粒度双向描述来探索CLIP模型的最佳训练策略,以及通过VLM-150M集成来提升LVLM性能的方法。作者预期这项工作将成为推进多模态学习的基础资源。

参考

[1]. HQ-CLIP: Leveraging Large Vision-Language Models to Create High-Quality Image-Text Datasets and CLIP Models

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值