【AI大模型】一文讲清多模态RAG,零基础小白收藏这一篇就够了

本文全面调研多模态检索增强生成(MRAG)技术,解析多模态文档处理、检索方法、数据整合及系统评估等关键问题。详细介绍了MRAG的三个演进版本:从文本转换的MRAG1.0,到保留原始多模态数据的MRAG2.0,再到支持端到端多模态处理的MRAG3.0,并对比各版本特点与局限。最后提供实现MRAG系统所需的功能模块和模型选择建议,为开发者构建多模态RAG能力提供全面指导。


多模态RAG调研

建立多模态RAG技术能力,需要解决以下几点问题

如何有效地解析和索引多模态文档

MRAG系统需要对多模态文档进行解析和索引。这包括提取文本内容(使用OCR或特定格式的解析技术从多模态文档中提取文本内容)、检测文档布局并将其分割成结构化元素(如标题、段落、图像、视频等)

如何建立多模态index与进行多模态检索

方法分为三类:

(a) 单模态单stream检索,将所有模态统一到单一(文本)的综合模态中;

(b) 跨模态单stream检索,将所有模态嵌入到一个共享的向量空间中;

© 单模态多stream检索,为每种模态分别维护独立的数据库。

2.3 如何在生成过程中整合多模态数据

多模态大型语言模型(MLLM)是基于Transformer的LLM,它们经过多模态数据(包括文本、图像、表格、音频和视频)的预训练和微调,以分析和理解各种数据格式 ,代表性模型包括GPT-4o。

2.4 如何评估和改进MRAG系统的性能

评估MRAG系统的质量分为三个方面

检索评估:

  • 命中率: 查询中正确文档出现在前N个结果中的百分比 。
  • 平均倒数排名(MRR): 量化最有用的文档是否排名更高 。
  • 相关性分数(RS): 评估检索到的条目与查询的相关性(适用于多模态数据),例如评估检索到的图像或文本与用户意图的对齐程度 。
  • 上下文召回率: 衡量检索到的上下文与真实答案的匹配程度 。
  • 上下文精度: 评估最相关的上下文项是否排名高于不相关的项 。

生成评估:

  • 正确性分数(CS): 评估生成响应相对于原始上下文的准确性 。
  • 多模态答案相关性: 衡量多模态RAG管道生成器输出与提供输入的关联程度 。
  • 多模态忠实度: 评估生成输出是否与检索上下文的内容事实性对齐 。
  • 图像连贯性: 评估图像与伴随文本的对齐程度 。
  • 图像帮助性: 评估图像对用户理解的有效贡献 。
  • 图像引用: 衡量文本引用或解释图像的准确性 。
  • 传统的NLP指标(BLEU、ROUGE)可以使用,但单独使用往往不足 。事实一致性检查(例如使用BERTScore)至关重要 。

端到端性能:

  • 延迟: 查询的端到端处理时间 。
  • 吞吐量: 单位时间内处理的查询数量 。
  • 资源利用率: CPU、GPU和内存使用情况 。
  • 错误率、用户满意度和任务成功率(A/B测试)
  • 人工评估对于判断正确性、清晰度、完整性以及识别幻觉至关重要 。

评估MRAG系统的基准与数据集

MRAG-Bench,以视觉为中心的LVLM基准

M2RAG,用于评估MLLM利用多模态检索文档能力的基准

TEMPRAGEVAL,针对时间敏感型问答

多模态RAG的三个版本

MRAG1.0

MRAG1.0 被称为"伪MRAG”,通过将多模态数据转换为统一的文本表示,利用现有的文本检索和生成机制实现了从RAG到MRAG的无缝衔接

框架图

MRAG2.0

MRAG2.0进入了"真正的多模态”时代,支持用户具有多模态输入的查询,并保留知识库中的原始多模态数据。通过利用MLLMs的能力,生成模块可以直接处理多模态数据,从而最小化数据转换期间的信息损失。

框架图

MRAG3.0

MRAG3.0代表了一个重要的进化,引入了结构和功能创新,增强了多个维度的能力。新范式的特点包括增强的文档解析、端到端多模态性和场景扩展。在输出阶段,多模态检索增强组合模块通过将纯文本转换为多模态格式来增强答案生成,从而丰富信息传递

框架图

在现有 Demo 中( dify) 需要补足的能力

RAG流程功能/模型哪个版本需要(1指MRAG1.0版本)
文档智能多格式文档解码工具1,2,3
CV,目标检测,版面分析模型1,2,3
CV,文本检测与识别ocr模型1,2,3
CV,表格识别模型1
MLLM模型,图像理解方向### 2,3
image/table caption知识库,文本格式### 1,2,3
多模态知识库,图片格式2,3
文件单页截图知识库3
检索多模态embeding模型2,3
多模态向量库2,3
多模态rerank模型2,3
文件单页截图检索模型3
文件单页截图向量库3
文本web搜索功能3
多模态web搜索功能3
query与上下文多轮对话文本中带有图片信息2,3
多模态query搜索规划模型3
query是否触发web搜索判断模型3
生成多模态prompt设计2,3
MLLM模型,文本生成方向2,3
多模态augment输出,文生图模型,版面编排模型3

三个版本的区别

特性MRAG1.0 (伪MRAG)MRAG2.0 (真多模态)MRAG3.0 (结构与功能创新)
数据处理方式将多模态数据转换为统一的文本表示,再进行检索和生成保留原始多模态数据,直接利用MLLMs处理多模态数据在输入、检索和输出阶段均支持端到端多模态处理,引入了多模态输出能力
检索能力基于文本向量的检索技术,无法充分利用跨模态信息的优势支持跨模态检索,能够结合文本和多模态数据进行更精确的检索引入动态检索规划模块,优化检索效率并减少无关信息的干扰。
生成能力生成纯文本答案,容易因数据转换导致信息丢失能够生成结合多模态数据的答案,显著减少信息损失支持多模态输出(如图文结合),进一步丰富生成内容的表现形式。
主要局限性* 数据转换过程复杂 * 易丢失细粒度跨模式信息 * 检索准确率受限* 业界多模态检索baseline能力不及文件检索 * 需要高效组织多样化数据格式系统复杂度极高,对计算资源要求更高
应用场景主要适用于以文本为主、多模态为辅的应用场景更适合需要结合多模态数据进行理解和生成的任务,如视觉问答(VQA)覆盖范围更广包括检索增强、视觉问答(VQA)、图像描述等多种场景实现理解和生成能力的统一

最后

为什么要学AI大模型

当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!

DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。

与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。

可能大家都想学习AI大模型技术,也_想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习_,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。
为了帮助大家打破壁垒,快速了解大模型核心技术原理,学习相关大模型技术。从原理出发真正入局大模型。在这里我和MoPaaS魔泊云联合梳理打造了系统大模型学习脉络,这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码免费领取🆓**⬇️⬇️⬇️

在这里插入图片描述

【大模型全套视频教程】

教程从当下的市场现状和趋势出发,分析各个岗位人才需求,带你充分了解自身情况,get 到适合自己的 AI 大模型入门学习路线。

从基础的 prompt 工程入手,逐步深入到 Agents,其中更是详细介绍了 LLM 最重要的编程框架 LangChain。最后把微调与预训练进行了对比介绍与分析。

同时课程详细介绍了AI大模型技能图谱知识树,规划属于你自己的大模型学习路线,并且专门提前收集了大家对大模型常见的疑问,集中解答所有疑惑!

在这里插入图片描述

深耕 AI 领域技术专家带你快速入门大模型

跟着行业技术专家免费学习的机会非常难得,相信跟着学习下来能够对大模型有更加深刻的认知和理解,也能真正利用起大模型,从而“弯道超车”,实现职业跃迁!

在这里插入图片描述

【精选AI大模型权威PDF书籍/教程】

精心筛选的经典与前沿并重的电子书和教程合集,包含《深度学习》等一百多本书籍和讲义精要等材料。绝对是深入理解理论、夯实基础的不二之选。

在这里插入图片描述

【AI 大模型面试题 】

除了 AI 入门课程,我还给大家准备了非常全面的**「AI 大模型面试题」,**包括字节、腾讯等一线大厂的 AI 岗面经分享、LLMs、Transformer、RAG 面试真题等,帮你在面试大模型工作中更快一步。

【大厂 AI 岗位面经分享(92份)】

图片

【AI 大模型面试真题(102 道)】

图片

【LLMs 面试真题(97 道)】

图片

【640套 AI 大模型行业研究报告】

在这里插入图片描述

【AI大模型完整版学习路线图(2025版)】

明确学习方向,2025年 AI 要学什么,这一张图就够了!

img

👇👇点击下方卡片链接免费领取全部内容👇👇

在这里插入图片描述

抓住AI浪潮,重塑职业未来!

科技行业正处于深刻变革之中。英特尔等巨头近期进行结构性调整,缩减部分传统岗位,同时AI相关技术岗位(尤其是大模型方向)需求激增,已成为不争的事实。具备相关技能的人才在就业市场上正变得炙手可热。

行业趋势洞察:

  • 转型加速: 传统IT岗位面临转型压力,拥抱AI技术成为关键。
  • 人才争夺战: 拥有3-5年经验、扎实AI技术功底真实项目经验的工程师,在头部大厂及明星AI企业中的薪资竞争力显著提升(部分核心岗位可达较高水平)。
  • 门槛提高: “具备AI项目实操经验”正迅速成为简历筛选的重要标准,预计未来1-2年将成为普遍门槛。

与其观望,不如行动!

面对变革,主动学习、提升技能才是应对之道。掌握AI大模型核心原理、主流应用技术与项目实战经验,是抓住时代机遇、实现职业跃迁的关键一步。

在这里插入图片描述

01 为什么分享这份学习资料?

当前,我国在AI大模型领域的高质量人才供给仍显不足,行业亟需更多有志于此的专业力量加入。

因此,我们决定将这份精心整理的AI大模型学习资料,无偿分享给每一位真心渴望进入这个领域、愿意投入学习的伙伴!

我们希望能为你的学习之路提供一份助力。如果在学习过程中遇到技术问题,也欢迎交流探讨,我们乐于分享所知。

*02 这份资料的价值在哪里?*

专业背书,系统构建:

  • 本资料由我与MoPaaS魔泊云的鲁为民博士共同整理。鲁博士拥有清华大学学士美国加州理工学院博士学位,在人工智能领域造诣深厚:

    • 在IEEE Transactions等顶级学术期刊及国际会议发表论文超过50篇
    • 拥有多项中美发明专利。
    • 荣获吴文俊人工智能科学技术奖(中国人工智能领域重要奖项)。
  • 目前,我有幸与鲁博士共同进行人工智能相关研究。

在这里插入图片描述

内容实用,循序渐进:

  • 资料体系化覆盖了从基础概念入门核心技术进阶的知识点。

  • 包含丰富的视频教程实战项目案例,强调动手实践能力。

  • 无论你是初探AI领域的新手,还是已有一定技术基础希望深入大模型的学习者,这份资料都能为你提供系统性的学习路径和宝贵的实践参考助力你提升技术能力,向大模型相关岗位转型发展

    在这里插入图片描述在这里插入图片描述在这里插入图片描述

抓住机遇,开启你的AI学习之旅!

在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员一粟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值