一篇80页多模态RAG技术最新综述:MRAG3.0

来源 | PaperAgent

多模态检索增强型生成(Multimodal Retrieval-Augmented Generation, MRAG)通过整合多模态数据(如文本、图像和视频)来增强大型语言模型(LLMs)的能力,显著提高了生成的质量并减少幻觉,系统地回顾了MRAG进展、技术组件等。

一、MRAG的发展

三个阶段:MRAG1.0、MRAG2.0和MRAG3.0,每个阶段都引入了新的技术和架构。

MRAG1.0

MRAG1.0 的架构,通常被称为“伪MRAG”,与传统RAG非常相似,由三个模块组成:文档解析与索引、检索和生成。尽管整体流程基本保持不变,但关键区别在于文档解析阶段。在这个阶段,使用专门的模型将不同模态的数据转换为特定模态的描述。这些描述随后与文本数据一起存储,以便在后续阶段使用。

图片

  • 文档解析与索引:将多模态文档转换为文本和图像描述,存储在向量数据库中。

  • 检索:使用嵌入模型检索与查询最相关的文本和图像描述。

  • 生成:将检索到的信息与用户查询结合,生成回答。

MRAG2.0

MRAG2.0 的架构通过文档解析和索引保留了多模态数据,同时引入了多模态检索和多模态大型语言模型(MLLMs)用于答案生成,真正进入了多模态时代。

<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值