生成式AI实现多模态信息检索新突破

多模态信息检索的生成式革新

过去十年间,机器学习(ML)严重依赖嵌入(embedding)概念:模型将输入数据转换为向量,使向量空间中的几何关系具有语义含义。例如,嵌入位置相近的单词可能含义相似。这种范式下的信息检索流程是:将查询嵌入表示空间,模型选择与之最接近的嵌入作为响应。多模态检索也遵循此模式,文本和图像可嵌入同一空间。

然而随着生成式AI的兴起,传统检索方式面临革新。在2025年计算机视觉与模式识别会议(CVPR)上提出的GENIUS框架(通用多模态搜索生成框架),实现了生成式AI时代的信息检索突破。该模型支持图像、文本及图文对的任意组合输入输出。

嵌入检索(a)需逐项比对查询与候选向量,而生成式检索(b/c)直接生成唯一ID。GENIUS©的首位ID码标识输出模态。

技术架构创新

GENIUS通过两项关键创新显著提升性能:

  1. 语义量化
    训练阶段通过残差量化生成目标ID序列:首位编码定义数据模态(图像/文本/图文对),后续编码逐级细化表示空间区域。共享前N位编码的数据在表示空间中具有层级化聚类关系。

  2. 查询增强
    通过在表示空间内插值原始查询与目标ID生成新查询,使模型学习到多查询映射同一目标的模式,显著提升泛化能力。

三阶段架构:(0)预训练独立编码器;(1)通过对比学习训练残差量化模块;(2)解码器直接生成目标ID。推理时通过字典树约束输出序列。

性能表现

在M-BEIR基准测试中:

  • 文本到图像检索任务(COCO数据集)Recall@5指标超越最优生成式方法28.6分
  • 结合嵌入重排序后,性能较纯生成式方法提升31%-56%
  • 数据规模越大,相比传统嵌入方法的效率优势越显著

该框架在保持生成式检索效率优势(免索引构

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值