当你在搜索“中国队在多哈乒乓球锦标赛的成绩”时,一篇新闻报道的文本部分和你的查询的相关性是 0.7,配图的相关性 0.5;另一篇则是文本相关性为 0.6,图片也是 0.6。那么,哪一篇报道才是你真正想要的呢?
这正是当前多模态搜索领域的一大核心挑战:如何给这些既有图像又有文字的文档一个公平且准确的“综合相关性”评分?
其根本困难在于,文本与图像的评分来自不同维度,尺度各异,缺乏直接可比性。简单比较或组合这些分数,很难得到一个合理的结果。那么,如何才能有效排序这些多模态文档呢?
针对这一困境,本文将提出一个简洁有效的解决思路。但在深入探讨我们的方案之前,我们有必要先理解:
那些想当然的简单方法,为什么会失效?
其症结在于,jina-clip-v2 乃至几乎所有 CLIP 类模型都存在 模态鸿沟(modality gap),这个特性导致任何你可能想到的简单粗暴的方法都行不通。
简单来说,“模态鸿沟”指的是不同模态(比如图像和文本)的向量在共享的向量空间中彼此分离的现象,不同模态产生的相似度分数可能处于不同的“尺度”或“分布范围”。
这样一来,如果你只是 简单地选取文字和图片分数中较高的那个,就会发现文字分数通常集中在 0.2 到 0.8 之间,而图片分数则集中在 0.4 到 0.6 之间。 这就意味着,一个表现平平的文字匹配(0.6 分)总是会压过一个匹配度很高的图片匹配(0.5 分),这显然不合理。
那么,取平均分呢? 同样行不通。就算你算出 (0.7 + 0.3) / 2 = 0.5,这个数字又代表什么呢?你只是在对一些根本没有可比性的数值求平均,这本身就是没有意义的。 同理,任何固定的加权方式都显得很武断,有时候文本更重要,有时候图片更重要,这完全取决于具体的查询和文档本身。
即使你 先把分数进行归一化(Normalization)处理,也解决不了核心问题。你仍然是在试图组合那些本质上就不同,并且是从不同维度衡量相关性的相似度值。
到底发生了什么?
为了更好地理解我们面临的问题,让我们看一个来自 EDIS 数据集的示例文档:它包含一张图片(一场德国足球比赛)和一段文字说明(“One More Field Where the Content Trails Germany”,意指又一个欧洲大陆不如德国的领域)。
由于我们有两种模态,对于任何给定的查询,我们实际上会面临两个潜在的语义鸿沟:查询与文本之间的鸿沟,以及查询与图像之间的鸿沟。那么,为了获得最佳结果,我们应该侧重于文档的文字内容,还是图像内容呢?
在 EDIS 数据集中,通过jina-clip-v2


最低0.47元/天 解锁文章

1377

被折叠的 条评论
为什么被折叠?



