大模型实战：如何在 GraphRAG 架构中实现本地知识图谱问

最新推荐文章于 2025-06-26 17:53:53 发布

原创最新推荐文章于 2025-06-26 17:53:53 发布 · 512 阅读

CC 4.0 BY-SA版权

文章标签：

#知识图谱 #人工智能 #AI大模型 #RAG #大模型技术 #GraphRAG #大模型实战

每当有新的大型语言模型（LLM）发布时，参数规模更大的模型似乎总能在媒体上引起更多关注。然而，由于所需资源巨大，只有最大的公司才能负担得起在内部环境中部署这些模型，即在本地服务器上运行。如果某个环境无法运行超过几十亿参数的模型，但仍需实现高性能，该怎么办？幸运的是，目前已经存在可行的解决方案。

微软最近开源了 Phi-4-mini [1]，这是一个拥有 38 亿参数的模型，专注于文本理解和生成。据称，在某些任务（尤其是数学和编码领域），Phi-4-mini 的表现可媲美甚至超越参数量为其两倍的模型。来自同一模型家族的 Phi-4 是微软在两个多月前发布的 14 亿参数模型，它似乎擅长复杂的推理 [2]。说到复杂推理，阿里巴巴几天前发布了 QwQ-32B，这是一个拥有 32 亿参数的模型，但据称其性能可与拥有 6710 亿参数的 DeepSeek-R1 相媲美 [3]。

本文将探讨如何在 GraphRAG 架构（即结合图检索增强生成技术，利用知识图谱来提升问答系统的准确性和可靠性）中采用 Phi-4-mini，针对特定领域的本地文档进行问答，其中将使用知识图谱（KG）中的上下文。借助 AI 框架库 LlamaIndex，我们将用它来支持知识图谱的构建，并实现对文档的高效查询。这有望最大限度地减少甚至消除幻觉。我们的主要目标是探索 Phi-4-mini 如何处理标准查询以及推理提示，并将其与专门针对复杂推理的模型进行比较，即其“大哥” Phi-4、DeepSeek-R1 的精馏 7B 模型以及 QwQ-32B。在这个系统的核心，我们将使用 llama-cpp-python 来加载这些本地模型，但它尚未支持 Phi-4-mini。我们将在此讨论如何启用此支持。

1.0 技术栈

本文工作的测试环境是在配有 16 块 GPU 和 24 GB 内存的 MacBook Pro（搭载 Apple Silicon）上完成的，运行 MacOS Sequoia。使用的 Python 版本是 3.12.9。

为了驱动我们的问答系统，我们将使用 Neo4j 图数据库管理系统。在之前的文章中，我们介绍了在 Mac 上安装和设置 Neo4j 的步骤。根据该文章(https://ai.gopubby.com/local-llm-generated-knowledge-graphs-powered-by-local-neo4j-4111c5234993#b768)中显示的步骤，我们将安装当前最新的 Neo4j 2025.01.0 版本 [4]。

按照最佳实践，我们将创建一个虚拟环境并激活该环境，如下所示：

python3.12 -m venv kg_qa
source kg_qa/bin/activate

该系统的框架依赖于 LlamaIndex，它具有用于数据摄取（即将外部文档或数据导入系统过程）、索引和查询的工具。它包括模块 PropertyGraphIndex，该模块简化了知识图谱的构建以及基于实体的查询。为了将 Neo4j 用作知识图谱的图存储，我们将使用模块 Neo4jPropertyGraphStore 和 Neo4j 的 Python 驱动程序 neo4j。

为了方便本地 LLM 的使用，我们将使用支持 Metal 加速的多功能库 llama-cpp-python。此软件包为 llama.cpp 库提供 Python 绑定。对于当前的工作，我们将采用量化的 8 位 Phi-4-mini Instruct(https://huggingface.co/microsoft/Phi-4-mini-instruct) 以及量化的 4 位 Phi-4(https://huggingface.co/microsoft/phi-4-gguf) 模型。Phi-4-mini 基于仅解码器的 Transformer，并支持 128K 上下文长度。它由 32 层组成，隐藏状态大小为 3,072，并绑定了输入/输出嵌入，从而减少了内存消耗。

对于 DeepSeek-R1，让我们使用来自 unsloth 的 HuggingFace 仓库(https://huggingface.co/unsloth/DeepSeek-R1-Distill-Qwen-7B-GGUF) 的量化 6 位 DeepSeek-R1 7B 精馏 Qwen 模型，该模型是根据其在之前的实验(https://medium.com/ai-advances/impact-of-quantization-on-knowledge-graphs-with-deepseek-r1-and-mistral-models-e16943989bd3)中的最佳性能选择的。至于 QwQ，它是我们测试中最大的模型，资源需求最高，我们将使用来自 Bartowski 的仓库(https://huggingface.co/bartowski/Qwen_QwQ-32B-GGUF) 的 2 位量化 QwQ-32B。

因此，以下包括用于安装所有必需库的 pip install 命令：

pip install llama-index llama-index-readers-file llama-index-embeddings-huggingface 
pip install neo4j llama-index-graph-stores-neo4j
CMAKE_ARGS="-DLLAMA_METAL=on" FORCE_CMAKE=1 pip install --upgrade --force-reinstall llama-index-llms-llama-cpp

1.1 在 llama-cpp-python 上启用 Phi-4-mini 支持

通过建议的软件包安装，将安装 llama-cpp-python 版本 3.7.0。但是，此版本尚不支持 Phi-4-mini。如果我们在此时继续加载此模型（使用下一节中的代码），我们将遇到 Failed to load model from file 异常，如下所示：

% python phi_qa_neo4j.py 
Traceback (most recent call last):
  File "/Users/ks/codes/python/ll_index/phi_qa_neo4j.py", line 20, in <module>
    llm = LlamaCPP(
          ^^^^^^^^^
  File "/Users/ks/codes/python/ll_index/lib/python3.12/site-packages/llama_index/llms/llama_cpp/base.py", line 162, in __init__
    model = Llama(model_path=model_path, **model_kwargs)
            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/Users/ks/codes/python/ll_index/lib/python3.12/site-packages/llama_cpp/llama.py", line 372, in __init__
    internals.LlamaModel(
  File "/Users/ks/codes/python/ll_index/lib/python3.12/site-packages/llama_cpp/_internals.py", line 56, in __init__
    raise ValueError(f"Failed to load model from file: {path_model}")
ValueError: Failed to load model from file: ./models/Phi-4-mini-instruct.Q8_0.gguf

此异常是一个相当普遍的故障。如果将 LlamaCPP 对象的 verbose 标志切换为 True 并重新尝试加载模型，则此故障的具体原因会变得更加清楚，这是由于使用了未知的预分词器类型 gpt-4：

llama_model_loader: - kv   0:                       general.architecture str              = phi3
llama_model_loader: - kv   1:              phi3.rope.scaling.attn_factor f32              = 1.190238
llama_model_loader: - kv   2:                               general.type str              = model
llama_model_loader: - kv   3:                               general.name str              = Phi 4 Mini Instruct
…
llama_model_loader: - kv  22:                       tokenizer.ggml.model str              = gpt2
llama_model_loader: - kv  23:                         tokenizer.ggml.pre str              = gpt-4o
…
print_info: file type   = Q8_0
print_info: file size   = 3.80 GiB (8.50 BPW) 
llama_model_load: error loading model: error loading model vocabulary: unknown pre-tokenizer type: 'gpt-4o'
llama_model_load_from_file_impl: failed to load model

无需担心，llama.cpp 推理库早在几周前便已开始支持 Phi-4-mini。我在本地安装的 llama-cpp-python 中添加了 Phi-4-mini 的新绑定，另一位开发人员也刚刚将相同的更改添加到存储库中。但是，目前还没有包含这些更改的新版本。目前，您需要手动下载并编译代码，方法是采用以下步骤：

\1. 下载 llama-cpp-python 存储库：% git clone --recurse-submodules https://github.com/abetlen/llama-cpp-python.git % cd llama-cpp-python
\2. 下载最新的 llama.cpp 代码：% make update.vendor
\3. 使用 CMake 构建 llama.cpp 并创建库：% cd vendor/llama.cpp % cmake -B build % cmake --build build --config Release
\4. 构建 llama-cpp-python 版本：% pip install -e . Installing build dependencies … done … Installing collected packages: llama_cpp_python Attempting uninstall: llama_cpp_python Found existing installation: llama_cpp_python 0.3.7 Uninstalling llama_cpp_python-0.3.7: Successfully uninstalled llama_cpp_python-0.3.7 Successfully installed llama_cpp_python-0.3.7

现在，此环境已准备好进行系统实现。

2.0 系统实现

让我们首先导入所有必需的库：

from llama_index.core import (
    PropertyGraphIndex,
    SimpleDirectoryReader,
    StorageContext,
    Settings,
)
from llama_index.llms.llama_cpp import LlamaCPP
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.graph_stores.neo4j import Neo4jPropertyGraphStore

接下来，使用所选本地模型的路径和推荐的温度值（0.0）实例化 LlamaCPP 对象，并通过设置 n_gpu_layers 参数以充分利用 GPU 资源。然后，我们通过实例化 Neo4jPropertyGraphStore 对象来设置由 Neo4j 数据库支持的图存储。此处使用默认凭据和数据库名称。最后，我们按照数据摄取管道读取文档，从模型生成的三元组生成知识图谱，并使用 PropertyGraphIndex.from_documents 提交到 Neo4j 数据库。

此时，我们已准备好使用来自构造图的上下文查询模型。我们的四个模型将使用 4 个不同的提示。它们是：

# Phi-4 mini
prompt = f'<|system|>You are a helpful AI assistant.<|end|><|user|>{query}<|end|><|assistant|>'
# Phi-4
prompt = f'<|im_start|>user<|im_sep|>{query}<|im_end|><|im_start|>assistant<|im_sep|>'                                                                                            
# DeepSeek-R1
prompt = f'<｜User｜>{query}<｜Assistant｜>'
# QwQ
prompt = f'<|im_start|>system\nYou are Qwen, created by Alibaba Cloud. You are a helpful assistant.<|im_end|>\n<|im_start|>user\n{query}<|im_end|>\n<|im_start|>assistant\n'

因此，以下列表捕获了 Phi-4-mini 模型的总体流程：

# 模型加载
model_path='./models/Phi-4-mini-instruct.Q8_0.gguf'
llm = LlamaCPP(
    model_path=model_path,
    temperature=0.0,   # for DeepSeek-R1 & QwQ, temperature => 0.6
    max_new_tokens=2000,
    context_window=4096,
    model_kwargs={"n_gpu_layers": -1},
    verbose=False
)
embed_model = HuggingFaceEmbedding()
Settings.llm = llm
Settings.embed_model = embed_model
Settings.chunk_size = 512

# Neo4j 数据库设置
url = "bolt://localhost:7687"
username = "neo4j"
password = "password"
database = "neo4j"
graph_store = Neo4jPropertyGraphStore(                                                                                                                                                     
    username=username,
    password=password,
    url=url,
    database=database,
)
# 读取、摄取文档并为 Neo4j 构建知识图谱
documents = SimpleDirectoryReader("./pdf/").load_data()
kg_index = PropertyGraphIndex.from_documents(
    documents,
    max_triplets_per_chunk=10,
    include_embeddings=False,
    property_graph_store=graph_store,
)

# 查询管道
kg_keyword_query_engine = kg_index.as_query_engine(
    include_text=True,
    similarity_top_k=2,
)
query = '在 NetProfiler 10.23 版本上，如何在报告中显示国家/地区标志？'
# phi-4 mini
prompt = f'<|system|>You are a helpful AI assistant.<|end|><|user|>{query}<|end|><|assistant|>'
response = kg_keyword_query_engine.query(prompt)
print(f'Query: {query}\nResponse: {response.response}')

现在，让我们继续使用已识别的本地模型来执行此代码。

3.0 性能比较

首先，让我们确保 Neo4j DBMS 在 localhost 上启动并侦听连接。对于此实验，我们将采用关于 NetProfiler 的一些知识库（KB）文章，NetProfiler 是 Riverbed Technology 的 NetFlow 收集器和报告设备，以代表一个利基领域。第一个知识库(https://github.com/drskennedy/qa-kg-neo4j/blob/main/pdf/KB_S38246_NP_sdwanPolling.pdf)描述了如何从 Cisco Viptela SD-Wan 设备启用 NetFlow 导出（允许报告网络流量统计信息）。第二个知识库(https://github.com/drskennedy/qa-kg-neo4j/blob/main/pdf/KB_S38358_GeoLoc.pdf)讨论了在 NetProfiler 报告上启用国家/地区标志的步骤。这些知识库经过精心挑选，旨在尝试捕获模型之间的任何主要行为差异，同时旨在使响应简洁明了，易于大多数读者理解。完成一个模型的知识图谱构建及其查询后，在继续进行下一个模型的测试运行之前，将重置数据库。

3.1 知识图谱构建

图 1 描绘了模型针对两个知识库生成的图。DeepSeek-R1 和阿里巴巴的 QwQ 构建了最密集的图，节点度数最高。针对 KB-1，它们具有具有更大最大直径的图，可能意味着它们具有基于实体传递关系发现新知识的潜力。两个 Phi-4 模型在两个知识库中构建了一些相似的图。

图 1. 模型基于每个知识库独立构建的知识图谱。

现在，让我们继续看看这些在构建图中的差异如何转化为模型对提示的响应生成。

3.2 响应生成

在测试中，我们针对每个知识库向模型提出了三个相同的问题。关于 KB-2，模型对问题 3 的响应非常深刻，可以作为了解其内部工作原理的窗口。因此，让我们仔细看看这个问题，它是：

NetProfiler 已部署为 NetFlow 收集器和报告解决方案。它将从位于海外的几个分支机构接收 NetFlow。曼谷的分支网络位于子网 172.16.0.0/20 上，达尔文的另一个分支位于 172.20.0.0/20 上。NetProfiler 用户希望为来自这两个国家/地区的流量显示正确的国家/地区标志。提供需要遵循的详细配置步骤列表，以使其 NetProfiler 能够显示正确的标志。

这是一个细节丰富的问题。它要求模型了解公司分支机构的位置、其对配置的影响、找出正确的 2 字符国家/地区代码、扩展 IP 子网并最终生成配置行。大多数这些信息并非直接位于知识库本身上。当我向任何公共 LLM 提出这个问题时，它们的响应充满了幻觉，因为它们不太可能在训练期间拥有它。在我们的 GraphRAG 设置中，Phi-4-mini 的响应如下：

1. 使用 mazu 帐户通过 SSH 连接到 NetProfiler 的基本/管理模块。
2. 导航到“管理 > UI 首选项”页面。
3. 启用选项“显示国家/地区标志”以显示具有地理位置数据的主机的国家/地区标志。
4. 创建一个自定义 IP 到国家/地区映射 JSON 文件，其内容如下：


{
  "172.16.0.0/20": "Thailand",
  "172.20.0.0/20": "Australia"
}


5. 使用类似“custom_ip_to_country_mappings.json”的名称保存 JSON 文件。
6. 使用“管理 > UI 首选项”页面将 JSON 文件上传到 NetProfiler 服务器。
7. NetProfiler 现在将显示来自曼谷和达尔文分支机构的流量的正确国家/地区标志。

它正确地指出需要 SSH 到设备。此处不需要步骤 2 和 3。它正确地确定需要创建一个具有 IP 子网到国家/地区映射的 JSON 文件。但它选择的语法不正确，文件名也不正确。步骤 6 是一个虚构内容，因为无法通过 UI 上传该文件。但是，对于一个小型模型来说，此性能仍然令人钦佩。

让我们看看 Phi-4 在这里是如何推理的：

1. **通过 SSH 连接到 NetProfiler：**
   - 使用 Mazu 帐户通过 SSH 进入 NetProfiler 的基本/管理模块。
2. **创建/编辑 JSON 配置文件：**
   - 使用文本编辑器（如 `vi`）打开文件 `/mnt/data/netprofiler-config/geomap_local_mappings.json`
3. **添加自定义 IP 到国家/地区映射：**
   - 为曼谷和达尔文子网添加条目，并包含它们各自的国家/地区代码。JSON 结构应如下所示：
     """
     {
       "ip_mapping": [
         {
           "ip_begin": "172.16.0.0",
           "ip_end": "172.16.15.255",
           "country": "TH"  // 泰国（曼谷）
         },
         {
           "ip_begin": "172.20.0.0",
           "ip_end": "172.20.15.255",
           "country": "AU"  // 澳大利亚（达尔文）
         }
       ]
     }
     """

4. **保存并退出：**
   - 保存更改并退出文本编辑器。

这一响应令人印象深刻。步骤、JSON 文件格式、文件名及其目录、IP 子网扩展以及国家/地区代码都非常准确。它只是错过了包括重新启动 Web 服务器的最后一步。在这里可以清楚地看到为什么 Phi-4 的强项是推理。

现在让我们看看 DeepSeek-R1 如何响应此提示：

### 分步配置
1. **了解子网和国家/地区**
   - **曼谷分支机构**：位于泰国，子网 `172.16.0.0/20`。
   - **达尔文分支机构**：位于澳大利亚，子网 `172.20.0.0/20`。
2. **确定国家/地区代码**
   - **泰国**：国家/地区代码 `TH`。
   - **澳大利亚**：国家/地区代码 `AU`。
3. **创建自定义 JSON 映射文件**
   - 在 `netproﬁler-conﬁg` 目录中创建一个名为 `geomap_local_mappings.json` 的新文件。
   - 将以下映射添加到文件中：
     """
     {
       "ip_mapping": [
         {
           "ip_begin": "172.16.0.0",
           "ip_end": "172.16.7.255",
           "country": "TH"
         },
         {
           "ip_begin": "172.20.0.0",
           "ip_end": "172.20.3.255",
           "country": "AU"
         }
       ]
     }
     """

    - 确保保存 `geomap_local_mappings.json` 文件。
4. **测试配置**
   - 应用自定义映射后，重新启动 NetProfiler 以确保更改生效。

为节省篇幅，此处省略了它的思考部分。DeepSeek-R1 几乎与 Phi-4 匹配，两个站点的 JSON 内容的准确性，但两个子网的 ip_end 值都不正确。它确实设法包括了正确的最后一步重新启动，即使 DeepSeek-R1 建议重新启动 NetProfiler 而不是重新启动其 Web 服务器，这在这里就足够了。另一个错误是幻觉目录 netproﬁler-conﬁg。没有这样的目录。

接下来，我们来看 QwQ 针对同一提示生成的响应：

### **分步配置指南**
#### **1. 准备自定义 IP 到国家/地区映射 JSON**
- **国家/地区代码**：使用 ISO 两个字母代码：
  - **曼谷子网（泰国）**：`TH`
  - **达尔文子网（澳大利亚）**：`AU`
- **JSON 结构**：
  """
  {
    "custom_ip_country_map": [
      {
        "ip_begin": "172.16.0.0",
        "ip_end": "172.16.15.255",
        "country": "TH"
      },
      {
        "ip_begin": "172.20.0.0",
        "ip_end": "172.20.15.255",
        "country": "AU"
      }
    ]
  }
  """
---
#### **2. 通过 SSH 连接到 NetProfiler**
- 使用 `mazu` 帐户访问基本/管理
---
#### **3. 创建/编辑 JSON 文件**
- 导航到相应的目录（通常为 `/opt/mazu/etc/`）：
- 创建或附加 JSON 文件 `custom_ip_country_map.json`
---
#### **4. 重新启动 Apache 服务**
- 通过重新启动 Apache 应用更改
---
#### **5. 验证配置**

与 DeepSeek-R1 的响应类似，QwQ 的响应也显示为没有思考部分。它正确地包括了所有步骤。IP 子网已准确扩展，并包含正确的国家/地区代码。但是，顶级 JSON 对象被错误地声明为 custom_ip_country_map，而不是 ip_mapping。它还幻想着 JSON 文件名及其目录。

为总结模型在该问题及其他问题上的表现，表 1 展示了相关结果及 KB-2 的响应时间。响应中的任何不正确或幻觉事实都以红色显示。为了区分计时性能，最快的响应以绿色显示，而最慢的响应以橙色显示。Phi-4 最接近在这些提示中获得完全准确性。问题 1 应该是一个最直接的查询，但 QwQ 返回了一个空响应，而 DeepSeek-R1 实际上没有回答这个问题。Phi-4 是正确的，但包含了一些严格来说不需要的额外信息。

在执行时间方面，模型之间的知识图谱构建时间相似，除了最大的模型 QwQ，这是预期的。当涉及到查询响应时间时，Phi-4-mini 是遥遥领先的赢家。DeepSeek-R1 慢了 20 倍，而 QwQ 甚至更慢。

对 KB-1 重复类似的生成练习，其结果在表 2 中捕获。Phi-4-mini 设法准确地响应了所有问题，包括与前两个问题相比需要一些推理的第三个问题。Phi-4 幻想着问题 2 的一个配置步骤，DeepSeek-R1 和 QwQ 大部分都错误地回答了问题 3。此外，QwQ 再次没有为问题 1 生成任何响应，这种情况在其 HuggingFace 存储库上被他们的研究人员指出(https://huggingface.co/Qwen/QwQ-32B#usage-guidelines)，并提出了关于如何克服它的建议。除了 Phi-4-mini 的准确性之外，它再次是最快的，比 DeepSeek-R1 快了 18 倍。

对于什么、哪个、哪里或列表的更简单问题，Phi-4 mini 以压倒性的优势领先于其他模型。我们通常会期望对此类问题做出直接的响应，而此模型似乎正中下怀。当一个问题需要一定量的推理时，即使具有更复杂推理能力的更大模型更适合，它也能够合理地处理它们。对于我们选择的这个利基领域的文档，Phi-4 似乎是赢家。但是，对于任何资源受限的环境，首选位置显然属于 Phi-4-mini🏆！

4.0 总结

微软最近发布了 Phi-4-mini，这是一个针对资源受限环境的小型模型。为了将任何模型应用于利基领域，需要某种形式的适应。GraphRAG 是一种流行的方法，其中文档被摄取并表示为知识图谱，并用于为模型提供上下文以支持其响应。为了有效地存储这些图，Neo4j 图数据库管理系统是一个不错的选择。

在本文中，我们研究了如何启用软件包 llama-cpp-python 以成功加载最近发布的 Phi-4-mini。我们开发了一个简单的问答系统来摄取、构建知识图谱并存储在本地 Neo4j 数据库上。当需要查询时，该模型会使用来自这些图的上下文来通知其生成。将 Phi-4-mini 的性能与 Phi-4、DeepSeek-R1 精馏 Qwen 7B 以及最近发布的 QwQ-32B 模型进行了比较。Phi-4-mini、Phi-4 和 DeepSeek-R1 模型花费了相似的时间来构建知识图谱，而 QwQ 花费了 6 倍的时间。有时，后两个模型构建了具有更大最大直径以及更多连接的图。

在生成方面，Phi-4-mini 只是轻松地完成了什么、哪个、哪里或列表的查询类型，并且具有很高的准确性。此外，即使对于基本级别的推理提示，它仍然能够准确地响应。对于需要更深入推理的提示，Phi-4、DeepSeek-R1 和 QwQ 做得更好，这是自然预期的。即便如此，这些模型仍然受到不同程度的幻觉的影响。对于资源匮乏的环境，Phi-4-mini 毫无疑问应该是首选模型。在资源有限的场景下，Phi-4-mini 提供了一种经济高效的解决方案，为知识图谱问答系统的落地提供了新的可能性。

感谢您的耐心阅读！