使用GraphRAG+LangChain+Ollama：LLaMa 3.1跑通知识图谱与向量数据库集成（Neo4j）

最新推荐文章于 2025-10-16 10:37:13 发布

原创最新推荐文章于 2025-10-16 10:37:13 发布 · 1.1k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#langchain #llama #知识图谱 #人工智能 #数据库 #ollama #GraphRAG

部署运行你感兴趣的模型镜像

我将向你展示如何使用 LLama 3.1（一个本地运行的模型）来执行GraphRAG操作，总共就50号代码。

首先，什么是GraphRAG？GraphRAG是一种通过考虑实体和文档之间的关系来执行检索增强生成的方式，关键概念是节点和关系。

▲ 知识图谱与向量数据库集成

知识图谱与向量数据库集成是GraphRAG 架构之一：这种方法利用知识图谱和向量数据库来收集相关信息。知识图谱的构建方式可以捕获向量块之间的关系，包括文档层次结构。知识图谱在从向量搜索中检索到的块附近提供结构化实体信息，从而通过有价值的附加上下文丰富提示。这个丰富的提示被输入到 LLM 中进行处理，然后 LLM 生成响应。最后，生成的答案返回给用户。此架构适用于客户支持、语义搜索和个性化推荐等用例。

节点代表从数据块中提取的实体或概念，例如人、组织、事件或地点。

知识图谱中，每个节点都包含属性和特性，这些属性为实体提供了更多上下文信息。

然后我们定义节点之间的连接关系，这些连接可以包括各种类型的关联，例如层次结构（如父子关系）、时间顺序（如前后关系）或因果关系（因果关系）。

关系还具有描述连接性质和强度的属性。当你有很多文档时，你会得到一个很好的图来描述所有文档之间的关系。

让我们看一个非常简单的例子，在我们的数据集中，节点可以代表像苹果公司和蒂姆·库克这样的实体，而关系则可以描述蒂姆·库克是苹果公司的 CEO。

这种方法非常强大，但一个巨大的缺点是它**计算成本很高，因为你必须从每个文档中提取实体，并使用 LLM 计算关系图。**这就是为什么使用像 LLaMa 3.1 这样本地运行的模型来采用这种方法非常棒。

保姆级教程开始

在本文中，我们将结合使用LangChain、LLama 和 Ollama ，以及 Neo4j 作为图数据库。我们将创建一个关于一个拥有多家餐厅的大型意大利家庭的信息图，所以这里有很多关系需要建模。

先利用Ollama拉取llama3.1 8b模型：

所有代码的链接我放在文末。。。

打开代码文件，来到VS Code 中，你可以在左边看到我们将使用的多个文件。

配置运行Neo4j数据库

在进入代码之前，我们将设置 Neo4j。我为你创建了一个 Docker Compose 文件。所以我们将使用 neo4j 文件夹，里面有一个 jar 文件，这是我们创建图所需的插件。

要创建我们的数据库，只需运行 docker compose up：

这将设置所有内容，并且可以直接使用。可能需要几秒钟，之后你会看到数据库正在运行。

安装依赖

然后我们可以进入 Jupyter Notebook，首先安装所需的包：

我们需要安装 LangChain、OpenAI 的 LangChain、Ollama、LangChain Experimental，因为图解决方案目前在 LangChain 实验包中。

我们还需要安装 Neo4j，以及用于在 Jupyter Notebook 中显示图的 py2neo 和 ipywidgets。

代码语言：javascript

复制

%pip install --upgrade --quiet  langchain langchain-community langchain-openai langchain-ollama langchain-experimental neo4j tiktoken yfiles_jupyter_graphs python-dotenv

导入类

安装完这些包后，我们可以导入所需的类。我们将从 LangChain 中导入多个类，例如 Runnable Pass Through、Chat Prompt Template、Output Parser 等。

我们还导入 Neo4j 的图类，这在 LangChain Community 包的 Graphs 模块中。我们还导入 Chat OpenAI 作为 Ollama 的后备模型。

在 LangChain Experimental 包中，我们有一个 Graph Transformer 模块，我们将从那里导入 LLM Graph Transformer，它利用复杂的提示将数据转换为可以存储在图数据库中的形式。

我们还将导入 Neo4j 的图数据库，不仅作为图数据库使用，还可以作为普通的向量数据库使用。

代码语言：javascript

复制

from langchain_core.runnables import  RunnablePassthrough
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.pydantic_v1 import BaseModel, Field
from langchain_core.output_parsers import StrOutputParser
import os
from langchain_community.graphs import Neo4jGraph
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_openai import ChatOpenAI
from langchain_community.chat_models import ChatOllama
from langchain_experimental.graph_transformers import LLMGraphTransformer
from neo4j import GraphDatabase
from yfiles_jupyter_graphs import GraphWidget
from langchain_community.vectorstores import Neo4jVector
from langchain_openai import OpenAIEmbeddings
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores.neo4j_vector import remove_lucene_chars

from dotenv import load_dotenv

load_dotenv()

我们将采用混合方法，既使用图知识，也使用标准的文档搜索方式，即通过嵌入模型来搜索与查询最相似的文档。

我们还将使用 dotenv 包，并在 Jupyter Notebook 中加载环境变量。在 .env 文件中，有一个 OpenAI API 密钥、一个 Neo4j URI、Neo4j 用户名和密码。你可以按原样使用这些信息，但在仓库中，它们将被命名为 .env.example。

下一步是创建与数据库的连接。所以我们实例化 Neo4j 图类，

这将建立与 Neo4j 的连接。

准备dummy_text.txt 数据集

你可以看到它描述了这个意大利家庭的大量信息，包括不同的名字、关系，如 Antonio 的妹妹 Amo、祖母等。这些信息稍后都将在我们的图中呈现。

我们将使用文本加载器将其加载到内存中，

然后使用文本分割器将其分割成多个块，这是标准的方法，以便 LLM 更容易处理信息。

LLM图转换函数创建文档块之间的所有关系

加载后，我们将设置我们的 LLM 图变换器，它负责将文档转换为 Neo4j 可以处理的形式。

基于环境变量 llm_type，目前我没有设置，所以默认是 Ollama。我们将实例化 ChatOllama 或 ChatOpenAI，然后将其传递给 LLM 图变换器的构造函数。

convert_to_graph_documents 方法将创建文档块之间的所有关系。我们传入创建的文档，计算可能需要一些时间，即使是这个很小的例子，也花了我大约 3 分钟时间，所以稍等片刻。

运行结果来了：这是一个图文档，你可以看到我们有一个 nodes 属性，它是一个包含不同节点的列表，具有 ID。我们可以看到 ID 类似于 Micos Family，类型是 Family，然后我们还有更多的节点，如 Love 概念节点、Tradition 等等。

他们之间也有关系，这些关系将被存储在 Neo4j 中。

可视化我们的图

当前我们还没有启动数据库，所以我们需要先运行 add_graph_documents 方法，提供图文档，然后将所有内容存储在 Neo4j 中。这也可能需要几秒钟时间。文档存储到数据库后，我们可以可视化它们。

首先我们要连接到数据库，我们将使用驱动方法，传入我们的 URI（存储在 Neo4j URI 环境变量中），还需要提供用户名和密码进行身份验证，并创建驱动实例。然后我们创建一个新会话，并使用会话的 run 方法对 Neo4j 运行查询。我们将使用这个查询语句：

如果你不熟悉 Neo4j 可能会觉得有点复杂，但它的意思是 Neo4j 应该返回所有通过 mentions 类型的关系连接的节点对，我们想返回 s, r, 和 t。s 是起始节点，r 是结束节点，t 是关系。

我们可以运行这个方法，并实际可视化我们的图：

现在我们可以向下滚动，这里我们可以看到这是我们的文档的完整知识图谱。正如你所看到的，这相当多，我们可以通过滚动来深入了解更多信息。这里我们可以看到一些实体，比如 Petro 是一个人，我们可以看到 Petro 喜欢厨房、喜欢大海，并且是另一个人 Sophia 的家长。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以我们可以看到不同的实体通过不同的关系建模，最终你得到了这个非常大的知识图谱。我认为即使是对于我们的小数据集，这也实际上是很多内容。我个人非常喜欢这种图。现在我们来看一下这不仅仅是美观，实际上也很有用。

图的存储做完了，再来一个向量存储

下一步是从 Neo4j 创建一个向量存储，所以我们将使用 Neo4jVector 类，并使用 from_existing_graph 方法，在这里我们只传入嵌入模型，从现有图中计算嵌入。这样我们也可以执行向量搜索，最终我们将把这个向量索引转换成一个检索器，以便有一个标准化的接口。

为图数据库准备实体（Prompt实体识别）

现在我们有一个图数据库，存储了我们的文档，也有了普通的向量存储。现在我们可以执行检索增强生成。由于我们使用图数据库，我们需要从查询中提取实体，以便从图数据库中执行检索步骤。

图数据库需要这种实体，所以我们将创建一个名为 Entities 的自定义模型，继承自 BaseModel，我们希望提取实体，这可以通过提供这个属性 entities 来完成，它是一个字符串列表。这里是 LLM 的描述，所以我们希望提取文本中的所有人、组织和业务实体。

▲ Langchain教程操作有类似

然后我们创建一个 ChatPromptTemplate，系统消息是你正在从文本中提取组织、个人和业务实体。然后我们提供用户输入，并将我们的提示模板传递给 LLM，与结构化输出一起使用，这使用了 Entities 类。我将向你展示其效果。

我们得到了我们的实体链，并可以像这样调用它。我们传入问题 “Who are Nonna and Giovanni Corrado?”，所以我们有两个名字，执行调用方法后，我们可以看到输出是一个字符串列表，只有名字，

这些名字将用于查询图数据库。接下来是在 graph_retriever 函数中调用这个方法。首先从查询中提取实体，然后对 Neo4j 运行查询，我将向你展示最终效果。

我们创建了 graph_rae 函数，传入问题，提取实体，然后查询数据库。

我们问 “Who is Nonna?”，如果运行这个查询，我们可以看到 Nonna 拥有哪些节点和连接。她影响了 Conato，教导了孙子们，影响了新鲜意大利面，影响了 Amico，是家族的女族长。

创建一个混合检索器

然后我们创建一个混合检索器，使用 graph_retriever 和我们的向量存储检索器。我们定义一个函数 full_retriever，在这里设置我们的 graph_retriever 函数，并使用向量检索器，调用其 invoke 方法，获取最相关的文档。我们有了关系图和基于余弦相似度的最相关文档，最终我们将所有文档结合，返回最终数据集。这就是 full_retriever 的作用。

最终链

然后我们创建一个最终链，这是一个普通的 RAG 链，你在几乎所有初学者教程中都会找到这样的链。我们有两个变量，context 和 question，context 是向量存储或其他数据库的输出，question 是我们的问题。所有这些都将发送给 LLM，我们创建一个模板，然后使用 Lang 和表达式语言在这里创建我们的最终链。这将创建一个 runnable_parallel，我将展示其 invoke 方法。

我们只使用一个字符串输入，传递给 full_retriever 函数，保持问题不变，然后将 context 和 question 传递给我们的提示，以填充这些变量。填充这些变量后，我们将所有内容传递给 LLM，并将 LLM 的输出传递给字符串输出解析器。

现在我们可以问 “Who is Nonna Lucia? Did she teach anyone about restaurants or cooking?” 所有关于关系的东西，执行结果：

代码语言：javascript

复制

Generated Query: Nonna~2 AND Lucia~2
'Nonna Lucia is the matriarch of the Caruso family and a culinary mentor. She taught her grandchildren the art of Sicilian cooking, including recipes for Caponata and fresh pasta.'

**我们可以看到答案是 Nonna Lucia 是 Corrado 家族的女族长和烹饪导师。她教导了她的孙子们西西里烹饪的艺术，**这确实是正确的。

这就是如何使用 Neo4j 执行图数据库 RAG。

附件：

以前看过的一个叫PP-Structure文档分析的项目，

信息抽出其中的实体识别。。。

▲ 信息抽取是自然语言处理中的基础问题，即从自然语言文本中，抽取出特定的事件或事实信息，帮助我们将海量内容自动分类、提取和重构。

程序员为什么要学大模型？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉优快云大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望