Generative Multi-Modal Knowledge Retrieval with Large Language Models

828 篇文章

已下架不支持订阅

本文提出了一种创新的多模态知识检索端到端生成框架,利用大型语言模型作为虚拟知识库,通过生成知识线索并搜索数据库以提升检索效果。通过对象感知前缀调优和多粒度视觉特征对齐,结合知识引导的生成策略,实现在多个基准上的显著性能提升。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Generative Multi-Modal Knowledge Retrieval with Large Language Models》的翻译。

基于大型语言模型的生成式多模态知识检索

摘要

使用多模态查询的知识检索在支持知识密集型多模态应用方面发挥着至关重要的作用。然而,现有的方法在有效性和训练效率方面面临挑战,尤其是在训练和集成多个检索器以处理多模态查询时。在本文中,我们提出了一个创新的多模态知识检索的端到端生成框架。我们的框架利用了这样一个事实,即即使在使用有限的数据进行训练的情况下,大型语言模型(LLM)也可以有效地充当虚拟知识库。我们通过两步过程检索知识:1)生成与查询相关的知识线索,2)使用知识线索搜索数据库,获得相关文档。特别地,我们首先引入了一种对象感知前缀调优技术来指导多粒度视觉学习。然后,我们将多粒度的视觉特征对齐到LLM的文本特征空间中,使用LLM来捕获跨模态交互。随后,我们构建了具有统一格式的指令数据,用于模型训练。最后,我们提出了知识引导的生成策略,在解码步骤中施加先验约束,从而促进独特知识线索的生成。通过在三个基准上进行的实验,我们证明,与强大的基线相比,所有评估指标都有3.0%至14.6%的显著改进。

引言

相关工作</

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值