《MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training》中文校对版

醒了就刷牙

已于 2024-09-18 09:26:04 修改

阅读量2.1k

点赞数 25

CC 4.0 BY-SA版权

分类专栏：论文文章标签：人工智能

于 2024-09-16 21:18:28 首次发布

本文链接：https://blog.youkuaiyun.com/buyaotutou/article/details/142306681

系列论文研读目录

文章目录

系列论文研读目录
摘要
1.介绍
2.相关工作、
3.多模态强化训练
- 3.1.数据集强化
- 3.2.训练
4.架构
- 4.1.文本编码器
- 4.2.图像编码器
5.实验
6.结论

摘要

图像-文本基础模型（如CLIP）的对比预训练在广泛的下游任务中表现出出色的zero-shot性能和提高的鲁棒性。然而，这些模型利用具有显著存储器和延迟开销的大型的基于transformer的编码器，这对部署在移动的设备上提出了挑战。在这项工作中，我们介绍MobileCLIP -一系列新的高效的图像-文本模型优化运行时性能沿着新颖的和有效的训练方法，即多模态强化训练。所提出的训练方法利用来自图像字幕模型的知识转移和强CLIP编码器的集成来提高高效模型的准确性。我们的方法通过将额外的知识存储在增强的数据集中来避免训练时的计算开销。MobileCLIP为几个数据集上的零射击分类和检索任务设置了一个新的最先进的延迟-准确性权衡。我们的MobileCLIP-S2变体比之前基于ViT-B/16的最佳CLIP模型快2.3倍，同时更准确。我们通过训练基于ViT-B/16图像主干的CLIP模型，进一步证明了我们的多模态强化训练的有效性，并在38个评估基准上实现了比以前最好的平均性能提高2.9%。此外，我们表明，与非强化CLIP训练相比，所提出的方法实现了10倍到1000倍的学习效率的提高。代码和型号可在https://github.com/apple/ml-mobileclip上获得

1.介绍

大型图像-文本基础模型，如CLIP[47]，已经在广泛的下游任务[30]中展示了出色的zero-shot性能和改进的鲁棒性[15]。然而，在移动的设备上部署这些模型是具有挑战性的，因为它们的大尺寸和高延迟。
我们的目标是设计一系列对齐imagetext编码器适用于移动的设备。实现这一目标面临两大挑战。首先，在运行时性能（例如，延迟）和不同架构的准确性，因此我们应该能够快速彻底地分析不同的架构设计。CLIP模型的大规模训练是计算昂贵的，阻碍了快速开发和探索有效的架构设计。另一方面，标准的多模态对比学习[47]在小规模上导致了较差的准确性，这不能提供有用的信号来指导架构设计选择。其次，较小架构的容量降低导致精度低于标准，可以通过更好的训练方法来提高精度。
为了克服这些挑战，我们开发了一种基于数据集强化方法的新训练方法[14]：i）使用额外信息强化一次数据集，ii）多次使用强化的数据集进行实验。对于给定的计算预算，与原始数据集相比，使用增强数据集进行训练可以提高准确性。我们提出了一个多模态的数据集强化变体，用于训练高效的CLIP模型。具体来说，我们通过从预训练的CLIP模型的强大集合中添加合成标题和嵌入来增强图像-文本DataComp[18]数据集（图3），获得DataCompDR。我们介绍了增强数据集的两个变体，DataCompDR-12M适合于高效模型设计的快速迭代，DataCompDR-1B用于最佳大规模训练性能。
与标准CLIP培训相比，使用DataCompDR进行培训显示出显著的学习效率提高。例如，使用8×A100 GPU的单个节点，当在DataCompDR-12 M上从头开始训练基于ViT-B/16 [12]的CLIP时，我们在大约一天内在ImageNet-val [8]上实现了61.7%的零射击分类。使用DataCompDR-1B进行的训练在几个指标上设置了新的最先进的性能（图2），同时与以前的工作相比，仍然使用了训练计算预算的一小部分。
DataCompDR数据集改进了所有指标。采用ViT-B/16图像编码器的CLIP型号的zero-shot性能。
利用DataCompDR，我们探索了设计空间，并获得了一个新的移动友好的对齐图像文本编码器系列，称为MobileCLIP，与以前的作品相比，具有更好的延迟精度折衷（图1）。我们利用几种架构设计技术来获得高效的图像和文本编码器，包括结构重新参数化[9-11，21，61]和卷积令牌混合[62]。MobileCLIP包括S0、S1、S2和B变体，涵盖不同移动的应用的各种尺寸和延迟。我们最快的变体MobileCLIP-S 0比标准OpenAI ViT-B/16 CLIP模型[47]快约5倍，小3倍，但具有相同的平均准确度。我们的贡献如下：（1）我们设计了一个新的移动友好型CLIP模型系列，MobileCLIP。MobileCLIP的变体在图像和文本编码器中使用具有结构重新参数化的混合CNNtransformer架构，以减少大小和延迟。（2）我们引入了多模态强化训练，这是一种新的训练策略，它结合了来自预训练图像字幕模型和强大CLIP模型集合的知识转移，以提高学习效率。（3）我们介绍了我们的增强数据集的两个变体：DataCompDR-12 M和DataCompDR-1B。使用DataCompDR，我们展示了与DataComp相比10倍至1000倍的学习效率。（4）MobileCLIP系列在零触发任务上获得了最先进的延迟精度折衷，包括标记新的最佳ViT-B/16 CLIP模型。
MobileCLIP模型快速准确。公开可用的CLIP模型与在DataCompDR数据集上训练的MobileCLIP的比较。延迟在iPhone 12 Pro Max上测量。

2.相关工作、

CLIP的高效学习。 人们可以通过利用增强的训练目标来提高学习效率。示例包括图像掩蔽[17，37，55，71]，单峰自我监督[35，43]，细粒度图像-文本对齐[72]，图像-文本-标签空间中的对比学习[69]和成对Sigmoid损失[77]。CLIPA[34]建议在多分辨率下进行培训，以提高培训的成本效益。这些方法是对我们提出的方法的补充。
CLIP训练数据集通常包括在网络规模上获得的噪声图像文本对。自最初的CLIP模型[47]以来，一些工作已经证明了大规模和过滤数据集的改进结果[16，18，51，52，77]。作为数据收集和过滤的补充，最近的工作表明，使用从预训练字幕模型生成的视觉丰富的合成字幕沿着真实的字幕可以提高CLIP模型的质量[32，45，70]。我们提出的增强多模态数据集也受益于综合生成的字幕，我们表明这对提高学习效率至关重要。
以前的作品，如DIME-FM [56]，扩展了单峰蒸馏[26]，重点是zero-shot分类。TinyCLIP [68]通过跨模态亲和力模仿和权重继承来训练紧凑的CLIP模型。多模态蒸馏也在学生是特定任务的融合视觉语言模型的设置中进行了探索[31，64，65]。我们提出的多模态强化训练还包括跨模态亲和力模仿[68]。此外，我们将单峰模型集成[33，46]扩展到多模态设置，并存储从CLIP模型集成中获得的目标。
最近提出了离线知识蒸馏方法[14，54，76]，以减轻由于运行大型教师模型而导致的培训时间开销成本。我们将数据集强化策略[14]扩