作为一名程序员,如果你想基于大模型和知识图谱为区政府开发一款政务查询系统,怎么下手?LightRAG结合DeepSeek提供了一个轻量高效的解决方案,支持文本嵌入、图谱存储和混合检索。本文基于一个实际项目,从代码重构、技术选型到部署优化,带你一步步打造一个政务知识图谱查询系统。涉及DeepSeek的调用、RAG实现、Neo4j图谱构建等硬核内容,代码可跑,干货满满,快来抄作业!
一、项目背景与目标
需求
为区政府开发一个知识图谱查询系统,支持:
- 政策查询:输入问题(如“谁会3D建模?”),返回相关人员或部门。
- 知识管理:从公文、书籍中提取信息,构建结构化知识库。
- 高效检索:支持文本+图谱混合查询,响应时间<1秒。
技术挑战
- 数据分散:公文、热线记录格式不一。
- 模型适配:DeepSeek需与本地环境无缝对接。
- 存储复杂:需融合向量、图谱和键值存储。
二、技术选型与架构设计
1. 技术栈
- 模型:DeepSeek-chat(API调用,预训练能力强)。
- 框架:LightRAG(轻量RAG实现,集成多存储)。
- 嵌入:shaw/dmeta-embedding-zh(Ollama托管)。
- 存储:
- Redis:键值存储(文档状态)。
- Neo4j:图谱存储(实体关系)。
- Milvus:向量存储(语义检索)。
- 部署:本地服务器(117.50.173.35)。
2. 系统架构
[客户端:CLI/Web]
↓
[API层:FastAPI]
↓
[LightRAG核心:DeepSeek + RAG]
↓
[存储层:Redis + Neo4j + Milvus]
↓
[本地服务器:Docker集群]
- 输入:文本文件(如book.txt)或实时查询。
- 处理:LightRAG分块嵌入+图谱构建+混合检索。
- 输出:自然语言答案。
三、代码实现与优化
1. 环境配置与初始化
重构代码
import os
from lightrag import LightRAG, QueryParam
from lightrag.llm.ollama import ollama_embed
from lightrag.utils import EmbeddingFunc
# 工作目录
ROOT_DIR = os.path.dirname(os.path.abspath(__file__))
WORKING_DIR = os.path.join(ROOT_DIR, "govKG")
os.makedirs(WORKING_DIR, exist_ok=True)
print(f"WorkingDir: {
WORKING_DIR}")
# 存储配置
os.environ["REDIS_URI"] = "redis://localhost:6379"
os.environ["NEO4J_URI"] = "bolt://117.50.173.35:7687"
os.environ