Ollama + Cherry Studio + Qwen3 模型 + MCP,打造本地 AI 知识库方案(附视频演示)

部署运行你感兴趣的模型镜像

之前出过一期关于本地 AI 知识库的文章,使用的是 Ollama 和 AnythingLLM。然而在实际使用过程中,我发现了几个明显的体验问题:

  • 早期参数量较小的大语言模型能力有限,中文支持尤其欠佳
  • 响应速度慢,影响使用体验
  • 嵌入模型向量化效果不理想,基于知识库的回答质量不够满意

今天我将使用 Ollama + Cherry Studio + Qwen3 模型 + MCP 工具重新打造一套更优质的本地 AI 知识库方案。这套方案特别适合非程序员用户,上手快速,零成本即可使用。

下面提供完整的文字教程,如果想要观看视频演示,可以访问以下链接:

前期准备

简单了解 RAG

RAG(Retrieval-Augmented Generation)是一种结合了信息检索与生成模型的技术,通过先从外部知识库中检索相关内容,再由大语言模型生成回答,从而提升回答的准确性和上下文相关性。

下图直观展示了 RAG 的数据流转过程:

来源:https://github.com/CherryHQ/cherry-studio-docs/blob/main/knowledge-base/data.md [1]

RAG 本地知识库的核心要素包括:

  • 高质量知识库文档:用户需提供结构清晰、内容丰富的文档,这是有效信息支撑的基础
  • Embedding 嵌入模型:将文本内容分段转换为低维向量并存储到向量数据库中,支持语义相似性搜索(简单理解为"找到意思相近的内容")
  • Reranker 重排序模型:对初步筛选出的相似内容进行精确评分排序,提升检索结果的准确度(相当于"先用嵌入模型粗选,再用重排序模型精排")
  • 大语言模型:作为系统的"大脑",负责理解检索到的相关内容,并生成连贯、准确的最终回答

大语言模型选择

大语言模型的选择至关重要。针对个人轻量级知识库场景,我推荐使用 qwen3-8b 作为本地知识库的大语言模型。虽然其参数量相对较低,但在实际应用中表现出色。根据海外社区 Reddit 的测试结果,qwen3-8b 在 RAG 应用方面得分相当不错:

来源:https://www.reddit.com/r/LocalLLaMA/comments/1kaqi3k/qwen_3_8b_14b_32b_30ba3b_235ba22b_tested/ [2]

使用 Ollama 下载 qwen3 和相应的嵌入模型后,可以在终端查看已安装的模型:

非程序员用户请注意:如果你不熟悉终端操作或不知道如何下载模型,可以直接跳过这一步,后续会有更简便的方法。

知识库文档准备

高质量的知识库文档是系统高效运行的关键。除了手动整理文档外,我们还可以借助 AI 从网络抓取高质量内容,并以 markdown 格式存储到本地(这种格式对 AI 处理特别友好)。

例如:可以添加一些常用的 MCP 工具(如 fetch、filesystem 等),从官网或其他渠道爬取内容并保存到本地。

以下是一个实用的提示词模板,只需替换你想要爬取的网页地址:

使用 sequential-thinking 工具思考并完成下面的工作:

  1. 使用 fetch 工具查询网址:https://docs.cursor.com/context/model-context-protocol [3] ,并获取网页正文中的每个链接的内容
  2. 使用 filesystem 工具将每个网页的内容保存为一个单独的 markdown 文件,保存在 docs 文件夹中

关于 MCP 的详细配置方法,可以参考视频号中 Cursor 101 系列第 4 集《MCP 详解与配置》,本文不再赘述。

实操

现在让我们打开 Cherry Studio 应用,开始实际操作。

01 添加模型

首先需要在 Ollama 和硅基流动平台中分别添加推理模型、嵌入模型和重排模型:

值得一提的是,硅基流动平台使用非常方便,直接登录即可获取 API key,无需额外在网页操作。本文将主要使用硅基流动进行演示,因为其响应速度明显更快,能够达到约 50 token/秒,而 Ollama 大约只有 10 token/秒。有趣的是,Ollama 在终端直接输出时速度却很快,这可能与模型推理过程和 Ollama 集成优化不足有关。

在硅基流动官网可以看到,qwen3-8b 和 bge 模型都是免费提供的:

来源:https://cloud.siliconflow.cn/models [4]

如何选择取决于对于个人数据是否想要完全私有化,完全私有化,可以选择 ollama,但是对于不懂技术,只想要快速使用的用户来说,可以直接在应用中注册网云平台免费使用,前面提到过,会将本地知识库检索出来的部分数据,推给远程的大语言模型 API,来生成最终结果。

02 新建知识库

接下来填入知识库名称,选择合适的嵌入模型和重排模型。创建好知识库后,就可以方便地添加文档了。应用支持多种格式,最实用的功能是可以直接添加整个目录,然后等待系统完成嵌入和保存:

03 新建智能体

输入智能体名称、设置提示词,并选择刚才创建好的知识库。以下是一个核心提示词示例:

你是一位熟悉 Cursor AI 编辑器的专家助手,擅长解答与 Cursor 使用、配置、插件、编码等相关的问题。

当用户提出关于 Cursor 的问题时,首先从关联的知识库中查找相关信息。
如果知识库中未找到答案,再根据你的专业知识进行解答。

如果你配置了支持网络查询的 MCP 工具,效果会更好——可以修改提示词,让智能体先查询本地知识库,查询不到时再进行联网查询。这样可以有效避免大语言模型在缺乏信息时产生的"幻觉"问题(因为大模型的训练数据通常较为滞后)。

默认选择 qwen3-8b 模型,重要提示:将模型温度设置为 0。这样可以让模型严格基于事实回答,在知识库查询不到信息时不会创造性地回答,从而避免生成错误信息或答非所问。

在知识库设置中,记得选择并连接你之前创建好的知识库。

04 聊天框中测试

最后,将智能体添加到聊天框中,开始进行提问测试:

现在,你可以自由地向知识库提问了:

你还可以随时切换到 Ollama 本地模型进行回答,体验不同模型之间的差异:

最后

通过本文介绍的方法,你现在已经拥有了一个功能完善、响应迅速的本地 AI 知识库。这套系统特别适合以下场景:

  1. 个人知识管理:将散落各处的笔记、文档集中管理,快速检索
  2. 专业领域学习:导入专业书籍、论文,进行深入问答
  3. 工作效率提升:快速查找项目文档、会议记录等信息
  4. 内容创作辅助:基于已有知识生成写作素材、构思创意

相比云端 AI 服务,本地知识库有几个明显优势:

  • 数据安全:敏感信息不会上传到外部服务器
  • 无需联网:离线环境下也能正常工作
  • 无使用限制:不受API调用次数或字数限制
  • 完全掌控:可以根据需要自由调整系统配置

当然,这个系统还有很多可以优化的空间。例如,你可以尝试更大参数量的模型(如果硬件允许)、调整知识库分块策略、优化提示词设计等。随着开源模型的不断进步,这套系统的能力还将持续提升。

希望这篇教程对你有所帮助。如果你在搭建过程中遇到任何问题,或者有改进建议,欢迎在评论区留言交流!

想入门 AI 大模型却找不到清晰方向?备考大厂 AI 岗还在四处搜集零散资料?别再浪费时间啦!2025 年 AI 大模型全套学习资料已整理完毕,从学习路线到面试真题,从工具教程到行业报告,一站式覆盖你的所有需求,现在全部免费分享

👇👇扫码免费领取全部内容👇👇

一、学习必备:100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT,帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例?大模型电子书?这份资料帮你站在 “行业高度” 学 AI

1. 100+本大模型方向电子书

在这里插入图片描述

2. 26 份行业研究报告:覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容,涵盖:

  • 职业趋势:《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》;
  • 商业落地:《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》;
  • 领域细分:《AGI 在金融领域的应用报告》《AI GC 实践案例集》;
  • 行业监测:《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT:听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会,包含百度、腾讯、字节等企业的一线实践:

在这里插入图片描述

  • 安全方向:《端侧大模型的安全建设》《大模型驱动安全升级(腾讯代码安全实践)》;
  • 产品与创新:《大模型产品如何创新与创收》《AI 时代的新范式:构建 AI 产品》;
  • 多模态与 Agent:《Step-Video 开源模型(视频生成进展)》《Agentic RAG 的现在与未来》;
  • 工程落地:《从原型到生产:AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看:大厂 AI 岗面试 “弹药库”,300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗?这份面试资料帮你提前 “押题”,拒绝临场慌!

1. 107 道大厂面经:覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景,包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题,每道题都附带思路解析

2. 102 道 AI 大模型真题:直击大模型核心考点

针对大模型专属考题,从概念到实践全面覆盖,帮你理清底层逻辑:

3. 97 道 LLMs 真题:聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案,比如让很多人头疼的 “复读机问题”:


三、路线必明: AI 大模型学习路线图,1 张图理清核心内容

刚接触 AI 大模型,不知道该从哪学起?这份「AI大模型 学习路线图」直接帮你划重点,不用再盲目摸索!

在这里插入图片描述

路线图涵盖 5 大核心板块,从基础到进阶层层递进:一步步带你从入门到进阶,从理论到实战。

img

L1阶段:启航篇丨极速破界AI新时代

L1阶段:了解大模型的基础知识,以及大模型在各个行业的应用和分析,学习理解大模型的核心原理、关键技术以及大模型应用场景。

img

L2阶段:攻坚篇丨RAG开发实战工坊

L2阶段:AI大模型RAG应用开发工程,主要学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

img

L3阶段:跃迁篇丨Agent智能体架构设计

L3阶段:大模型Agent应用架构进阶实现,主要学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造Agent智能体。

img

L4阶段:精进篇丨模型微调与私有化部署

L4阶段:大模型的微调和私有化部署,更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调,并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

img

L5阶段:专题集丨特训篇 【录播课】

img
四、资料领取:全套内容免费抱走,学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口?别犹豫,这份免费资料就是你的 “起跑线”!

您可能感兴趣的与本文相关的镜像

Llama Factory

Llama Factory

模型微调
LLama-Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调

### 部署 Qwen3 模型Ollama 和 RAGFlow 的步骤 部署 Qwen3 模型并将其集成到 Ollama 和 RAGFlow 环境中,可以通过以下几个关键步骤完成: #### 1. **准备环境** 在开始之前,确保已经安装了以下工具: - Docker(用于运行 RAGFlow) - Ollama(用于本地模型推理) - Git(可选,用于克隆相关项目) 可以使用如下命令检查是否已安装这些工具: ```bash docker --version ollama --version git --version ``` #### 2. **下载并启动 RAGFlow** RAGFlow 是一个支持本地部署知识库构建平台。可以通过 Docker 安装和运行它。 ```bash # 拉取 RAGFlow 镜像 docker pull langgenius/ragflow:latest # 启动 RAGFlow 服务 docker run -d -p 80:80 langgenius/ragflow:latest ``` 访问 `http://localhost` 或服务器的 IP 地址来打开 RAGFlow 的 Web 界面,并注册管理员账号。 #### 3. **加载 Qwen3 模型Ollama** Ollama 支持多种大模型本地部署。需要先从模型仓库获取 Qwen3 模型文件,然后通过 Ollama 进行加载。 首先,确认 Ollama 是否已经运行: ```bash ollama serve ``` 接下来,拉取 Qwen3 模型: ```bash ollama pull qwen3 ``` 如果 Qwen3 模型尚未被官方支持,可以通过自定义方式将模型文件转换为 Ollama 可接受的格式,并使用 `ollama create` 命令进行加载。 #### 4. **在 RAGFlow 中配置 Qwen3 模型** 登录到 RAGFlow 的 Web 界面后,进入“模型提供商”设置页面,选择 Ollama 并添加 Qwen3 模型。 - **模型名称**:填写 `qwen3` - **模型类型**:选择 `LLM` - **API 地址**:默认情况下,Ollama 的 API 地址是 `http://localhost:11434/api/generate` - **API Key**:留空(因为是本地部署) 保存配置后,Qwen3 将出现在可用模型列表中。 #### 5. **创建知识库并测试** 在 RAGFlow 中创建一个新的知识库,上传相关的文档(如 PDF、Word 文件等),并选择 Qwen3 作为推理模型。 上传完成后,RAGFlow 会自动对文档内容进行索引和嵌入处理。之后,可以通过问答的方式测试知识库的效果。 #### 6. **优化与调整** 根据实际应用需求,可以进一步优化模型性能: - **微调模型**:如果 Qwen3 的通用能力不足以满足特定领域的需求,可以考虑对其进行微调。 - **调整嵌入模型**:RAGFlow 支持多种嵌入模型,可以选择更适合中文文本的模型以提升检索效果。 - **扩展知识库**:持续更新知识库中的文档内容,保持其时效性和准确性。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值