
近年来,多模态搜索,或者说把文本和图像融合进统一的搜索体验,在 OpenAI 的 CLIP 等模型的带动下发展得如火如荼。这些模型有效地弥合了视觉数据和文本数据之间的语义鸿沟,可以把图像和相关的文本对应起来。
然而,很多做实际应用的开发者很快会发现,CLIP 及其同类模型虽然在图文匹配上表现很出色,但在长文本理解和复杂语义关系处理上就力不从心了。所以我们推出了 jina-clip-v1,目标就是构建一个既能理解图像又能深度理解文本的统一模型。
jina-clip-v1 不仅保留了强大的图文匹配能力,还着重优化了文本的理解能力。它相当于给那些需要同时处理文本和图像的应用提供了一个更简洁的方案,简化了搜索的流程,避免了用不同的模型分别处理文本和图像的麻烦和性能损失。
本文将通过实验展示 jina-clip-v1 如何构建统一的图文向量空间,来提升多模态搜索结果的准确性和多样性。
开源链接: https://huggingface.co/jinaai/jina-clip-v1
官方 API: https://jina.ai/embeddings
CLIP 模型的局限性
CLIP(Contrastive Language–Image Pretraining)是 OpenAI 开发的一种 AI 模型架构,其核心思路是将文本和图像数据映射到同一个向量空间,语义相似的数据就挨得近。它在海量的图文对数据集上训练,泛化能力强,在零样本学习场景下也表现不俗。
自从 CLIP 发布以来,也有一些其他的模型,比如 SigLiP、LiT 和 EvaCLIP 等等,在 CLIP 的基础上做了改进,主要是在训练效率、模型规模和多模态理解能力等方面。这些模型一般都会用更大的数据集、改进的架构和更复杂的训练方法,来进一步提升图文对齐的效果,推动图像-语言模型领域的发展。
但 CLIP 在文本方面一直有硬伤:
短文本限制: CLIP 主要在短文本描述上进行训练,最长也就 77 token,所以它在处理长文本时表现就很一般了。
语义理解局限: CLIP 在文本和文本之间的语义对比上也有不足,缺乏对语义细粒度的理解能力。比如,它很难 get 到“深红色的水果”和“红苹果”其实是一个意思。
这在实际的多模态搜索场景中就会带来不少麻烦。比如电商场景里,用户可以用文字或者图片搜索商品。用 CLIP 的话,给商品建索引的时候,你就得反复处理每个商品——图片处理一次,文本处理一次,如果商品描述很长,还得用专门的文本向量模型再处理一次。同样的,用户搜索商品的时候,系统也得分别在文本和图像索引里搜一遍。效率低下不说,效果也不一定好。

最低0.47元/天 解锁文章

2220





