来源 | PaperAgent
多模态检索增强型生成(Multimodal Retrieval-Augmented Generation, MRAG)通过整合多模态数据(如文本、图像和视频)来增强大型语言模型(LLMs)的能力,显著提高了生成的质量并减少幻觉,系统地回顾了MRAG进展、技术组件等。
一、MRAG的发展
三个阶段:MRAG1.0、MRAG2.0和MRAG3.0,每个阶段都引入了新的技术和架构。
MRAG1.0
MRAG1.0 的架构,通常被称为“伪MRAG”,与传统RAG非常相似,由三个模块组成:文档解析与索引、检索和生成。尽管整体流程基本保持不变,但关键区别在于文档解析阶段。在这个阶段,使用专门的模型将不同模态的数据转换为特定模态的描述。这些描述随后与文本数据一起存储,以便在后续阶段使用。
-
文档解析与索引:将多模态文档转换为文本和图像描述,存储在向量数据库中。
-
检索:使用嵌入模型检索与查询最相关的文本和图像描述。
-
生成:将检索到的信息与用户查询结合,生成回答。
MRAG2.0
MRAG2.0 的架构通过文档解析和索引保留了多模态数据,同时引入了多模态检索和多模态大型语言模型(MLLMs)用于答案生成,真正进入了多模态时代。
<