清华大学开源新作:首个MCP-based RAG框架,太秀了!

逛 GitHub 挖到宝了,这个叫 UltraRAG 的开源项目是首个基于 MCP 的检索增强生成(RAG)框架,不写代码也能玩转。

用 YAML 文件轻松构建复杂 RAG 系统。

RAG 系统:简单来说,就是让 AI 模型能先检索相关信息,再生成答案,从而提高准确性。

图片

UltraRAG 是由清华 THUNLP、东北大学 NEUIR、OpenBMB 等多方联合推出的开源项目。

它能让你更容易构建和测试复杂的 RAG 系统。

01

开源项目简介

图片

这个开源项目的核心思路是把 RAG 的核心组件封装为标准化的独立 MCP Server,提供函数级 Tool 接口支持灵活调用,借助 MCP 客户端建立简洁的链路搭建。

这种设计让想使用 RAG 系统的人只需编写 YAML 配置文件,就能直接声明复杂逻辑,大大降低了技术门槛。

图片

新版版本升级,最新的 2.1 版本主要围绕以下三大核心方向进行了全面升级:

① 原生多模态

统一框架支持文本、图像的检索与生成,新增 VisRAG Pipeline 实现 PDF 到多模态问答的闭环。

而且内置的多模态 Benchmark 覆盖视觉问答等任务,并提供统一的评估体系,方便研究者快速对比实验效果。

② 知识接入与语料构建自动化

支持多格式文档,比如 Word、电子书、网页存档的自动解析与分块,不需要编写复杂脚本即可构建统一格式的知识库。

而且在 PDF 解析方面,它集成了 MinerU 工具,能高保真还原复杂版面与多栏结构,并支持将 PDF 按页转换为图像,保留视觉布局信息。

图片

③ 统一工作流

通过 YAML 配置驱动检索、生成、评估全流程,支持多种引擎与可视化分析,提升实验复现效率。

开源项目链接和相关教程如下:

代码仓库:https://github.com/OpenBMB/UltraRAG教程文档:https://ultrarag.openbmb.cn/数据集:https://modelscope.cn/datasets/UltraRAG/UltraRAG_Benchmark

02

实际效果

先来看看效果,基于这个开源项目搭建的 RAG 系统的真实示例。

比如第一个 Case:基于论文《Attention is All You Need》咨询一个问题,论文中的表 4 具体说了什么,帮忙解释一下。

AI 可以直接解析表格内容,给出如下回答,还是挺清晰的。

图片

这是因为刚刚升级的 2.0 可以统一处理文本和图像数据。

上传的 PDF 文档,它不仅能读取文字,还能分析里面的图表和公式,实现真正的多模态检索和生成。

这避免了以前需要切换不同工具的麻烦。

第二个 Case:基于麦肯锡的《生成式人工智能的经济潜力》报告。

让 AI 基于里面的内容,输出生成式 AI 最有潜力的企业职能有哪些?请结合图表和正文说明它们在组织生产力中的影响。

图片

03

如何使用

UltraRAG 支持两种部署方式,第一种是使用 Conda 创建虚拟环境:

图片

另外一种部署方式是通过 Docker:

图片

接下来就能可以基于 UltraRAG 运行一个完整的 RAG Pipeline 了。使用流程主要包括以下三个阶段:

  • 编写 Pipeline 配置文件

  • 编译 Pipeline 并调整参数

  • 运行 Pipeline

这里不详细展开,可以直接看下面这个文档,写的很详细。

https://ultrarag.openbmb.cn/pages/cn/getting_started/quick_start

你不需要写代码,配置一个 YMAL 文件就行了。

而且开源项目内置了 Case Study Viewer 界面,可以对结果进行交互式浏览与分析。 就是下面这样的界面。

图片

图片

 最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

  • ✅AI大模型学习路线图
  • ✅Agent行业报告
  • ✅100集大模型视频教程
  • ✅大模型书籍PDF
  • ✅DeepSeek教程
  • ✅AI产品经理入门资料

如果你也想通过学大模型技术去帮助自己升职和加薪,可以扫描下方链接👇👇
​​
在这里插入图片描述

为什么我要说现在普通人就业/升职加薪的首选是AI大模型?

人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。

img
智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200% ,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

在这里插入图片描述

​​
在这里插入图片描述

资料包有什么?

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

② AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述

④各大厂大模型面试题目详解

在这里插入图片描述
⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​在这里插入图片描述
在这里插入图片描述

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

<think>根据提供的依赖和配置,分析可能存在的问题: 1. 依赖版本问题:使用里程碑版本(1.0.0-M6)可能存在不稳定或配置变化 2. 配置项缺失:虽然配置了mcp.server的基本信息,但缺少AI模型配置(如openai、ollama等) 3. 端点路径问题:默认SSE端点路径可能不是/sse,需要确认或自定义 4. 自动配置条件:可能因为缺少必要的配置导致自动配置未激活 解决方案: 1. 检查依赖:确保所有相关依赖的版本兼容,特别是Spring Boot和Spring AI的版本匹配 2. 补充模型配置:必须指定一个AI模型后端,例如OpenAI或Ollama 3. 查看日志:启动应用时检查自动配置日志,确认MCP服务端是否被激活 4. 确认端点:查看文档或源码,确定默认的SSE端点路径(可能是/mcp/sse或其他) 具体步骤: 步骤1:添加必要的模型配置,例如使用OpenAI: spring: ai: openai: api-key: <your-api-key> model: gpt-3.5-turbo 步骤2:在application.yml中显式启用MCP服务端(如果默认未启用): spring: ai: mcp: server: enabled: true 步骤3:检查启动日志,搜索关键词"MCP"或"SSE",确认端点注册信息 步骤4:尝试访问默认端点(可能是/mcp/sse): curl -v http://localhost:8088/mcp/sse 如果问题仍然存在,考虑添加一个测试控制器验证WebFlux是否正常工作。 注意:由于使用的是里程碑版本,可能存在bug或配置变更,建议查阅对应版本的文档。 根据以上分析,提出相关问题。</think>根据您提供的依赖配置和YAML配置,存在几个关键问题需要解决: ### 问题分析 1. **依赖版本不匹配** `spring-ai-mcp-server-webflux-spring-boot-starter:1.0.0-M6` 是**里程碑版本(M版本)**,而您的配置中声明了`version: 1.0.0`。两者版本不一致会导致自动配置失败。 2. **关键配置缺失** MCP服务端需要明确的AI模型配置(二选一): ```yaml # 缺少以下关键配置之一: spring: ai: openai: api-key: YOUR_API_KEY # 或 ollama: base-url: http://localhost:11434 ``` 3. **端点路径未明确** MCP默认使用 `/mcp/sse` 路径而非 `/sse`,未在配置中指定自定义路径: ```yaml spring: ai: mcp: server: endpoint: /sse # 需要添加此配置 ``` 4. **依赖作用域问题** 若使用Spring Boot 3.x,需要确认是否添加了WebFlux基础依赖: ```xml <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-webflux</artifactId> </dependency> ``` ### 完整修复方案 #### 1. 修正依赖版本(pom.xml) ```xml <dependency> <groupId>org.springframework.ai</groupId> <artifactId>spring-ai-mcp-server-webflux-spring-boot-starter</artifactId> <!-- 选择正式版本 --> <version>1.0.0</version> <!-- 或匹配配置的版本 --> <!-- <version>${spring.ai.version}</version> --> </dependency> ``` #### 2. 补充完整配置(application.yml) ```yaml server: port: 8088 spring: application: name: cwl-mcp-server ai: # 必须添加AI模型配置(二选一) openai: api-key: sk-xxxxxxxxxxxxxx # 你的OpenAI密钥 model: gpt-4-turbo # 或使用本地模型 # ollama: # base-url: http://localhost:11434 # model: llama3 mcp: server: name: cwl-mcp-server version: 1.0.0 endpoint: /sse # 明确指定端点路径 enabled: true # 显式启用 ``` #### 3. 验证步骤 1. 清理并重新构建项目: ```bash mvn clean package ``` 2. 检查启动日志中的关键信息: ```log [MCP-Server] : SSE endpoint registered at /sse [MCP-Server] : Connected to AI model: gpt-4-turbo ``` 3. 测试SSE连接: ```bash curl -N http://localhost:8088/sse ``` 预期返回持续事件流: ``` event: message data: {"content":"Hello from MCP"} ``` ### 常见错误排查 若仍不成功,检查: 1. 启动日志中是否有 `ReactiveWebServerInitialized` 事件 2. 是否存在多个Web服务器冲突(如同时存在Tomcat和Netty) 3. 防火墙是否阻止了SSE长连接
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值