加利福尼亚大学提出TULIP！视觉-语言模型的新王者！AI性能全面碾压CLIP！

最新推荐文章于 2025-11-24 18:29:32 发布

原创

最新推荐文章于 2025-11-24 18:29:32 发布 · 862 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #语言模型 #自然语言处理 #AI编程 #深度学习 #ai

🌐 社群导航

🔗点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】技术交流群

🔗点击加入➡️【2-3月CCF投稿】交流群

最新论文解读系列

论文名：TULIP: Towards Unified Language-Image Pretraining

论文链接：https://arxiv.org/pdf/2503.15485

开源代码：https://tulip-berkeley.github.io/

导读

对比图像 - 文本（CIT）模型，包括CLIP、SigLIP和ALIGN，在高级视觉 - 语言任务中展现了最先进的性能，在各种应用中表现出色，例如根据文本检索图像以及反之亦然、执行零样本分类，并且作为视觉 - 语言模型的核心组件。它们的成功源于能够利用数十亿规模的数据集在图像和语言输入之间创建一个共享的嵌入空间，在这个空间中，相似的概念彼此靠近，不同的概念彼此远离。

简介

尽管像CLIP和SigLIP这样的图像 - 文本对比模型最近取得了成功，但这些模型在以视觉为中心、需要高保真图像理解的任务中往往表现不佳，例如计数、深度估计和细粒度目标识别。这些模型通过执行语言对齐，往往更优先考虑高级语义而非视觉理解，从而削弱了它们的图像理解能力。另一方面，专注于视觉的模型在处理视觉信息方面表现出色，但难以理解语言，限制了它们在语言驱动任务中的灵活性。在这项工作中，我们推出了TULIP，这是一种开源的、可直接替代现有类CLIP模型的方案。我们的方法利用生成式数据增强、增强的图像 - 图像和文本 - 文本对比学习以及图像/文本重建正则化，在保留全局语义对齐的同时学习细粒度的视觉特征。我们的方法在参数规模超过10亿时，在多个基准测试中优于现有的最先进（SOTA）模型，在ImageNet - 1K上实现了新的SOTA零样本性能，在RxRx1的少样本分类线性探测中比SigLIP提高了，并改进了视觉 - 语言模型，在MMVP上比SigLIP的得分高出以上。