🌐 社群导航
🔗点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群
最新论文解读系列

论文名:TULIP: Towards Unified Language-Image Pretraining
论文链接:https://arxiv.org/pdf/2503.15485
开源代码:https://tulip-berkeley.github.io/

导读
对比图像 - 文本(CIT)模型,包括CLIP、SigLIP和ALIGN,在高级视觉 - 语言任务中展现了最先进的性能,在各种应用中表现出色,例如根据文本检索图像以及反之亦然、执行零样本分类,并且作为视觉 - 语言模型的核心组件。它们的成功源于能够利用数十亿规模的数据集在图像和语言输入之间创建一个共享的嵌入空间,在这个空间中,相似的概念彼此靠近,不同的概念彼此远离。
简介
尽管像CLIP和SigLIP这样的图像 - 文本对比模型最近取得了成功,但这些模型在以视觉为中心、需要高保真图像理解的任务中往往表现不佳,例如计数、深度估计和细粒度目标识别。这些模型通过执行语言对齐,往往更优先考虑高级语义而非视觉理解,从而削弱了它们的图像理解能力。另一方面,专注于视觉的模型在处理视觉信息方面表现出色,但难以理解语言,限制了它们在语言驱动任务中的灵活性。在这项工作中,我们推出了TULIP,这是一种开源的、可直接替代现有类CLIP模型的方案。我们的方法利用生成式数据增强、增强的图像 - 图像和文本 - 文本对比学习以及图像/文本重建正则化,在保留全局语义对齐的同时学习细粒度的视觉特征。我们的方法在参数规模超过10亿时,在多个基准测试中优于现有的最先进(SOTA)模型,在ImageNet - 1K上实现了新的SOTA零样本性能,在RxRx1的少样本分类线性探测中比SigLIP提高了,并改进了视觉 - 语言模型,在MMVP上比SigLIP的得分高出以上。
方法与模型
我们介绍 TULIP,这是一个高性能的图像 - 文本对比模型,它统一了多种不同的对比学习范式以改进表征学习。TULIP 的几项贡献背后的基本见解是,图像及其相关的描述代表了潜在“现实”的不同“视图”或视角,这一观点最近在 Huh 等人的研究 [27] 中得

最低0.47元/天 解锁文章
1515

被折叠的 条评论
为什么被折叠?



