用LightRAG+DeepSeek v3开发政务知识图谱查询系统：从代码到实战的全流程解析

最新推荐文章于 2025-09-12 17:18:22 发布

原创最新推荐文章于 2025-09-12 17:18:22 发布 · 4.5k 阅读

CC 4.0 BY-SA版权

文章标签：

作为一名程序员，如果你想基于大模型和知识图谱为区政府开发一款政务查询系统，怎么下手？LightRAG结合DeepSeek提供了一个轻量高效的解决方案，支持文本嵌入、图谱存储和混合检索。本文基于一个实际项目，从代码重构、技术选型到部署优化，带你一步步打造一个政务知识图谱查询系统。涉及DeepSeek的调用、RAG实现、Neo4j图谱构建等硬核内容，代码可跑，干货满满，快来抄作业！

一、项目背景与目标

需求

为区政府开发一个知识图谱查询系统，支持：

政策查询：输入问题（如“谁会3D建模？”），返回相关人员或部门。
知识管理：从公文、书籍中提取信息，构建结构化知识库。
高效检索：支持文本+图谱混合查询，响应时间<1秒。

技术挑战

数据分散：公文、热线记录格式不一。
模型适配：DeepSeek需与本地环境无缝对接。
存储复杂：需融合向量、图谱和键值存储。

二、技术选型与架构设计

1. 技术栈

模型：DeepSeek-chat（API调用，预训练能力强）。
框架：LightRAG（轻量RAG实现，集成多存储）。
嵌入：shaw/dmeta-embedding-zh（Ollama托管）。
存储：
- Redis：键值存储（文档状态）。
- Neo4j：图谱存储（实体关系）。
- Milvus：向量存储（语义检索）。
部署：本地服务器（117.50.173.35）。

2. 系统架构

[客户端：CLI/Web]
      ↓
[API层：FastAPI]
      ↓
[LightRAG核心：DeepSeek + RAG]
      ↓
[存储层：Redis + Neo4j + Milvus]
      ↓
[本地服务器：Docker集群]

输入：文本文件（如book.txt）或实时查询。
处理：LightRAG分块嵌入+图谱构建+混合检索。
输出：自然语言答案。

三、代码实现与优化

1. 环境配置与初始化

重构代码

import os
from lightrag import LightRAG, QueryParam
from lightrag.llm.ollama import ollama_embed
from lightrag.utils import EmbeddingFunc

# 工作目录
ROOT_DIR = os.path.dirname(os.path.abspath(__file__))
WORKING_DIR = os.path.join(ROOT_DIR, "govKG")
os.makedirs(WORKING_DIR, exist_ok=True)
print(f"WorkingDir: {WORKING_DIR}")

# 存储配置
os.environ["REDIS_URI"] = "redis://localhost:6379"
os.environ["NEO4J_URI"] = "bolt://117.50.173.35:7687"
os.environ["NEO4J_USERNAME"] = "neo4j"
os.environ["NEO4J_PASSWORD"] = "12345678"
os.environ["MILVUS_URI"] = "http://117.50.173.35:19530"
os.environ["MILVUS_USER"] = "root"
os.environ["MILVUS_PASSWORD"] = "Milvus"
os.environ["MILVUS_DB_NAME"] = "gov_rag"

优化点：

用os.makedirs替换os.mkdir，避免目录已存在时报错。
常量命名更贴合政务场景（如govKG）。

2. DeepSeek模型接入

LLM函数

from lightrag.llm.openai import openai_complete_if_cache

async def llm_model_func(prompt, system_prompt=None, history_messages=None, **kwargs) -> str:
    return await openai_complete_if_cache(
        model="deepseek-chat",
        prompt=prompt,
        system_prompt=system_prompt or "你是政务专家，基于知识库精准回答。",
        history_messages=history_messages or [],
        api_key="sk-91d0b59f25554251aa813ed756d79a6d",
        base_url="https://api.deepseek.com",
        max_tokens=512,
        temperature=0.7,
    )

优化点：

添加默认system_prompt，强化政务语境。
设置max_tokens和temperature，控制输出长度和生成稳定性。

3. 嵌入函数与数据构建

嵌入实现

embedding_func = EmbeddingFunc(
    embedding_dim=768,
    max_token_size=512,
    func=lambda texts: ollama_embed(
        texts,
        embed_model="shaw/dmeta-embedding-zh",
        host="http://117.50.173.35:11434"
    ),
)

LightRAG初始化

rag = LightRAG(
    working_dir=WORKING_DIR,
    llm_model_func=llm_model_func,
    llm_model_max_token_size=32768,
    embedding_func=embedding_func,
    chunk_token_size=512,           # 分块大小
    chunk_overlap_token_size=256,   # 重叠避免信息断裂
    kv_storage="RedisKVStorage",
    graph_storage="Neo4JStorage",
    vector_storage="MilvusVectorDBStorge",
    doc_status_storage="RedisKVStorage",
    batch_size_nodes=500,           # Neo4j节点批量写入
    batch_size_edges=100,           # Neo4j边批量写入
)

数据插入

file_path = "../gov_policies.txt"  # 假设政务政策文本
with open(file_path, "r", encoding="utf-8") as f:
    rag.insert(f.read())
print("数据插入完成，知识图谱已构建！")

优化点：

增加批量参数（batch_size_nodes/edges），提升Neo4j写入效率。
文件名改为gov_policies.txt，更贴合政务场景。

4. 检索增强（RAG）与查询

查询实现

query = "哪个部门负责3D建模培训？"
response = rag.query(
    query,
    param=QueryParam(
        mode="mix",  # 混合模式：向量+图谱检索
        top_k=5,     # 返回Top-5相关结果
    )
)
print(f"查询结果：{response}")

技术细节：

向量检索：Milvus存储文本嵌入，基于余弦相似度排序。
图谱检索：Neo4j查询实体关系（如“部门-技能”）。
混合模式：LightRAG融合两者，提升答案精准度。

5. 知识检索增强

Prompt增强

在llm_model_func中，已通过system_prompt注入政务知识。若需动态增强，可从Neo4j提取上下文：

from py2neo import Graph

graph = Graph(os.environ["NEO4J_URI"], auth=(os.environ["NEO4J_USERNAME"], os.environ["NEO4J_PASSWORD"]))
def fetch_context(query):
    cypher = "MATCH (n:Department)-[:HAS_SKILL]->(s:Skill {name: '3D建模'}) RETURN n.name"
    result = graph.run(cypher).data()
    return "相关上下文：" + ", ".join([r["n.name"] for r in result]) if result else "暂无数据"

context = fetch_context(query)
enhanced_prompt = f"{context}\n问题：{query}"
response = rag.query(enhanced_prompt, param=QueryParam(mode="mix"))

6. 部署与扩展

Docker部署

# Dockerfile
FROM python:3.9-slim
WORKDIR /app
COPY . .
RUN pip install lightrag py2neo redis pymilvus
CMD ["python", "main.py"]

API封装

from fastapi import FastAPI

app = FastAPI()

@app.get("/query")
async def query_gov(q: str):
    return {"response": rag.query(q, param=QueryParam(mode="mix"))}