Jina CLIP v1：多模态向量模型，为文本和图像而生！

最新推荐文章于 2025-06-24 01:38:55 发布

Jina AI

最新推荐文章于 2025-06-24 01:38:55 发布

阅读量1.9k

点赞数 30

CC 4.0 BY-SA版权

文章标签： jina 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Jina_AI/article/details/139640590

CLIP 模型架起了文本和图像的桥梁，但实际上很少有人会用它来进行文本检索，因为CLIP的文本编码器无法有效的对长文本进行语义建模。

为了解决这一问题，我们推出了 Jina CLIP v1，一个增强版的 OpenAI CLIP 模型，擅长文本-文本、文本-图像、图像-文本、图像-图像四个方向的检索。从现在起，你的 CLIP 模型不仅是图像检索器，更是强大的文本检索器。

在构建多模态 RAG 应用时，你不再需要在不同的向量模型之间切换，一个模型、两种模态、四个搜索方向 都交给 Jina CLIP v1。更关键的是，它还能够处理长达 8K 的输入长度。接下来，就让我们一探这款新模型的精华所在。

示例：用 Jina CLIP 实现零样本实时图像分类

CLIP 模型架构

在 2021 年 1 月，OpenAI 推出了开创性的 CLIP 模型，其架构简洁却极具巧思：将一个文本编码器与一个图像编码器结合，在统一的向量空间中输出结果。CLIP 的文本向量与图像向量之间的距离，反映了两者语义关联的紧密程度。

CLIP 这一架构非常适用于跨模态检索和零样本分类任务，通过学习大量的图像和文本对，即使在没有针对性任务训练的情况下，也能理解并分类新的图像。

原始 CLIP 模型中的文本编码器是一个定制的神经网络，在图像编码器方面，OpenAI 则使用了一系列 ResNet 和 ViT 模型，再用图像描述进行训练，以生成相似的图像-文本向量。

这种方法非常有效，尤其是在零样本分类中的表现。举个例子，即使训练数据中没有标注宇航员的图像，CLIP 仍能凭借对文本和图像相关概念的理解，准确识别宇航员的图片。

然而，OpenAI 的 CLIP 也存在两大短板：

1. 文本输入容量非常有限。最多仅支持 77 个 token 的输入，根据 LongCLIP 的实验，实际上其有效输入不超过 20 个 token。

2. 在纯文本检索中表现不佳。主要原因有两点：首先，CLIP 模型的训练目标是对齐文本和图像，没有针对纯文本检索进行专门优化。其次，CLIP 模型的训练数据主要由相对较短的文本组成，难以泛化到更广阔的文本检索场景。

因此，在大多数应用到 CLIP 模型的实际应用场景中，如果涉及到纯文本检索任务，就需要引入其他专用文本向量模型并行使用

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。