清华大学开源新作：首个MCP-based RAG框架，太秀了！

原创于 2025-11-20 14:11:11 发布 · 665 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #AI大模型 #大模型 #大模型教程 #RAG #程序员 #大模型学习

逛 GitHub 挖到宝了，这个叫 UltraRAG 的开源项目是首个基于 MCP 的检索增强生成（RAG）框架，不写代码也能玩转。

用 YAML 文件轻松构建复杂 RAG 系统。

RAG 系统：简单来说，就是让 AI 模型能先检索相关信息，再生成答案，从而提高准确性。

UltraRAG 是由清华 THUNLP、东北大学 NEUIR、OpenBMB 等多方联合推出的开源项目。

它能让你更容易构建和测试复杂的 RAG 系统。

开源项目简介

这个开源项目的核心思路是把 RAG 的核心组件封装为标准化的独立 MCP Server，提供函数级 Tool 接口支持灵活调用，借助 MCP 客户端建立简洁的链路搭建。

这种设计让想使用 RAG 系统的人只需编写 YAML 配置文件，就能直接声明复杂逻辑，大大降低了技术门槛。

新版版本升级，最新的 2.1 版本主要围绕以下三大核心方向进行了全面升级：

① 原生多模态

统一框架支持文本、图像的检索与生成，新增 VisRAG Pipeline 实现 PDF 到多模态问答的闭环。

而且内置的多模态 Benchmark 覆盖视觉问答等任务，并提供统一的评估体系，方便研究者快速对比实验效果。

② 知识接入与语料构建自动化

支持多格式文档，比如 Word、电子书、网页存档的自动解析与分块，不需要编写复杂脚本即可构建统一格式的知识库。

而且在 PDF 解析方面，它集成了 MinerU 工具，能高保真还原复杂版面与多栏结构，并支持将 PDF 按页转换为图像，保留视觉布局信息。

③ 统一工作流

通过 YAML 配置驱动检索、生成、评估全流程，支持多种引擎与可视化分析，提升实验复现效率。

开源项目链接和相关教程如下：

代码仓库：https://github.com/OpenBMB/UltraRAG教程文档：https://ultrarag.openbmb.cn/数据集：https://modelscope.cn/datasets/UltraRAG/UltraRAG_Benchmark

实际效果

先来看看效果，基于这个开源项目搭建的 RAG 系统的真实示例。

比如第一个 Case：基于论文《Attention is All You Need》咨询一个问题，论文中的表 4 具体说了什么，帮忙解释一下。

AI 可以直接解析表格内容，给出如下回答，还是挺清晰的。

这是因为刚刚升级的 2.0 可以统一处理文本和图像数据。

上传的 PDF 文档，它不仅能读取文字，还能分析里面的图表和公式，实现真正的多模态检索和生成。

这避免了以前需要切换不同工具的麻烦。

第二个 Case：基于麦肯锡的《生成式人工智能的经济潜力》报告。

让 AI 基于里面的内容，输出生成式 AI 最有潜力的企业职能有哪些？请结合图表和正文说明它们在组织生产力中的影响。

如何使用

UltraRAG 支持两种部署方式，第一种是使用 Conda 创建虚拟环境：

另外一种部署方式是通过 Docker：

接下来就能可以基于 UltraRAG 运行一个完整的 RAG Pipeline 了。使用流程主要包括以下三个阶段：

编写 Pipeline 配置文件
编译 Pipeline 并调整参数
运行 Pipeline

这里不详细展开，可以直接看下面这个文档，写的很详细。

https://ultrarag.openbmb.cn/pages/cn/getting_started/quick_start

你不需要写代码，配置一个 YMAL 文件就行了。

而且开源项目内置了 Case Study Viewer 界面，可以对结果进行交互式浏览与分析。就是下面这样的界面。

最后

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

如果你也想通过学大模型技术去帮助自己升职和加薪，可以扫描下方链接👇👇

在这里插入图片描述

为什么我要说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200% ，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

在这里插入图片描述

资料包有什么？

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

在这里插入图片描述

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

在这里插入图片描述

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述