生成式AI革新多模态信息检索技术

会议

CVPR 2025

相关出版物

GENIUS: A generative framework for universal multimodal search

文章正文

在过去的十年中,机器学习(ML)在很大程度上依赖于嵌入的概念:ML模型学习将输入数据转换为向量(嵌入),使得向量空间内的几何关系具有语义意义。例如,在表示空间中嵌入相近的词语可能具有相似的含义。

嵌入概念意味着一个直观的信息检索范式:查询被嵌入到表示空间中,模型会选择嵌入最接近它的响应。这也适用于多模态信息检索,因为文本和图像(或其他模态)可以嵌入到同一空间。

然而,最近,生成式AI开始主导ML研究。在2025年计算机视觉与模式识别会议(CVPR)上,我们发表了一篇论文,将基于ML的信息检索更新到了生成式AI时代。我们的模型名为GENIUS(意为生成式通用多模态搜索),是一个多模态模型,其输入和输出可以是图像、文本或图文对的任意组合。

与将查询向量与每个可能的响应向量进行比较(如果图像目录或文本语料库足够大,这将是一项耗时的任务)不同,我们的模型将查询作为输入,并生成一个单一的ID代码作为输出。这种方法以前已经尝试过,但GENIUS极大地改进了先前基于生成的信息检索方法。在使用三个不同指标(当检索到一个、五个或十个候选响应时的检索准确率)在两个不同数据集上进行的测试中,GENIUS比先前性能最佳的生成式检索模型提高了22%到36%。

当我们随后使用传统的基于嵌入的方法对生成的顶级响应候选进行重新排序时,性能进一步提高了31%到56%,显著缩小了基于生成的方法与基于嵌入的方法之间的差距。

范式转换

信息检索是从大型数据库中查找相关信息的过程。使用传统的基于嵌入的检索,查询和数据库项都被映射到一个高维空间,并使用余弦相似度等指标来度量相似性。虽然有效,但随着数据库的增长,由于索引构建、维护和最近邻搜索的成本增加,这些方法面临可扩展性问题。

生成式检索已成为一种有前途的替代方案。生成模型不再嵌入项目,而是根据查询直接生成目标数据的标识符。这种方法实现了恒定时间检索,与数据库大小无关。然而,现有的生成方法通常是任务特定的,与基于嵌入的方法相比性能不足,并且难以处理多模态数据。

GENIUS

与仅限于单模态任务或特定基准的先前方法不同,GENIUS可推广到文本、图像和图文对的检索,同时保持高速度和有竞争力的准确性。其相对于先前基于生成的模型的优势基于两个关键创新:

语义量化
在训练期间,模型的目标输出ID通过残差量化生成。每个ID实际上是一个代码序列,第一个代码定义了数据项的模态——图像、文本或图文对。连续的代码更具体地定义了数据项在表示空间中的区域:共享第一个代码的项目在同一通用区域;共享前两个代码的项目在该区域中聚类更紧密;共享前三个代码的项目聚类更紧密,依此类推。模型尝试从输入编码中学习重现代码序列。

查询增强
语义量化导致模型能够为熟悉类型的对象和文本生成准确的ID代码,但可能难以泛化到新的数据类型。为了解决这个限制,我们使用查询增强。对于具有代表性的查询-ID对样本,我们通过在表示空间中初始查询和目标ID之间进行插值来生成新的查询。这样,模型学习到多种查询可以映射到同一目标,这有助于其泛化。

结果

在使用M-BEIR基准测试的实验中,GENIUS在COCO数据集的文本到图像检索任务上,Recall@5指标比最佳生成式检索方法高出28.6分。结合基于嵌入的重新排序,GENIUS在M-BEIR基准测试上通常实现了接近基于嵌入基线的结果,同时保留了生成式检索的效率优势。

GENIUS在生成式方法中实现了最先进的性能,并缩小了生成式方法与基于嵌入方法之间的性能差距。随着数据集的增长,其效率优势变得更加显著,无需像基于嵌入方法那样进行昂贵的索引构建即可保持高检索速度。因此,它代表了生成式多模态检索的重大进步。

研究领域

搜索与信息检索

标签

生成式AI

关于作者

Sungyeon Kim 是浦项科技大学(POSTECH)计算机视觉实验室的博士后研究员。完成这项工作时,他是某中心的实习生。

Xiaofan Lin 是某中心搜索部门的高级应用科学家。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值