企业数据不出门：基于Ollama+GraphRAG的私有化知识问答系统搭建指南-优快云博客

本文链接：https://blog.youkuaiyun.com/xzp740813/article/details/147053300

之前写过一篇使用deepseek和智谱AI实现《红楼梦》中人物关系智能问答的随笔
但deepseek提供的免费tokens只有500万个，GraphRAG构建图谱的索引和问答过程，对token的消耗是巨量的
因此亟需找到一种本地化部署的方案，不用依赖在线大模型的api形式。

前排提示，文末有大模型AGI-优快云独家资料包哦！

看到国外博客上有人公布了GraphRAG+Ollama的本地化部署方案，按照博客内容进行了复现，这里做一个详细记录。

本地化部署方案的优点：

本地大模型构建图谱和问答，可以利用Ollama随时拉取最新大模型，并进行切换；
无需消耗token，极大降低了成本；
启动简单，可以实现快速部署和实验。

本地部署步骤：

在本地新建conda环境，可以确保所有新建的依赖环境是独立的

conda create -n graphrag-ollama-local python=3.10
conda activate graphrag-ollama-local

安装Ollama，支持pip install形式安装
也可以访问官网查看更多安装细节https://ollama.com/

pip install ollama

使用Ollama拉取大模型，实现GraphRAG的索引和向量化流程

ollama pull mistral #llm
ollama pull nomic-embed-text #embedding

从github拉取GraphRAG+Ollama项目

git clone https://github.com/TheAiSingularity/graphrag-local-ollama.git

进去上述项目中

cd graphrag-local-ollma/

安装GraphRAG包

pip install -e .

类似GraphRAG方案中，需要新建input地址来存放外部文档

mkdir -p ./ragtest/input

在GraphRAG-local-ollama项目中，提供了部分样例文档，这部分英文文档可以进行初始化测试（跑成功）

cp input/* ./ragtest/input

初始化ragtest，生成settings.yaml文件

python -m graphrag.index --init --root ./ragtest

将本项目中的settings.yaml文件直接复制到安装好的graphrag包中，项目样例配置文件，已经将llm和embedding对应的大模型，分别配置为mistral和nomic-embed-text

mv settings.yaml ./ragtest

配置完成后，可以开始GraphRAG的索引流程

python -m graphrag.index --root ./ragtest

上述索引过程大概耗时30分钟，索引构建完成，就可以看到样例文档的图谱文件，此时可以进行文档的智能问答

python -m graphrag.query --root ./ragtest --method global "What is machine learning?"

除了智能问答以为，我们还想看看样例文档的图谱构建结果如何，也就是图谱长什么样子，可以借助如下命令进行

修改配置文件settings.yaml中的参数

snapshots:
  graphml: true

此时构建索引过程中，样例文档的图谱文件会自动生成一份graphml文件，可以通过python中的graphml包对这个文件机型读取

graphml文件的保存路径为output/20240708-161630/artifacts/summarized_graph.graphml

可以使用项目中visualize-graphml.py文件对graphml进行可视化，可以看到样例文档的图谱形状，包括各个实体及关系。

python visualize-graphml.py

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓