【干货收藏】从文档到知识图谱：大模型驱动的自动化构建方案，提速4周+

最新推荐文章于 2025-11-23 19:13:18 发布

原创最新推荐文章于 2025-11-23 19:13:18 发布 · 807 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#知识图谱 #人工智能 #AI大模型 #大模型入门 #大模型学习 #大模型教程 #LLM

前言

从最靠基本功的文档预处理、LLM抽取、评估消歧、高速通道入库！

我们发现，每个项目任务不同，MAS所需知识不同，数据处理的方法也，全不相同！

这！无法标准化交付！

于是，小编在想，有没有通用的+自动干活的方案？

1，可以根据任务目标，智能定位文档中，有价值的那些

2，聚焦价值数据，匹配任务，精准设计数据模型，完成建模

3，用建模方案，自动把文档中，有价值的部分，抽取为知识图谱

4，消岐+评估知识图谱，实现自动化入库到本地neo4j中

不求满分，85分即可！

为达成以上目标，伙计做了出来

一切确认好了，接下来就是一键导入到知识图谱

他会自动抽取数据，并完成入库！

这相当于，把整个过程，开箱！

与行业专家的交流会很高效，大家都可以摸到数据过程，并迭代他！

行业专家无需懂技术，技术也无需深入业务！

你可以在这里体验：

因有多人在用，若需上传知识图谱，请勾选“清空数据”，这样就能用你自己的数据，构建；

完全自然语言+大白话，提需求，Agent会自动干活！

直接为知识图谱类项目落地，提速至少4周+！

他背后是如何实现的？

共4步！也是今天核心内容！

① 数据发现与分析（用LLM找到数据中有价值部分）

② 数据智能建模（智能评估数据与任务共性，设计数据模型）

③ 一键抽取评估入库（以数据模型抽取需要的数据，全自动到neo4j中）

④ 什么模型？什么知识图谱？…边跑代码边聊细节（纯本地实现）

现在，一起看看用《青年政策》表格（会员提供），做的数据模型：

{
"nodes": [
{
"label": "Policy",
"properties": [
{
"name": "policyId",
"type": "int",
"column_mapping": "序号",
"alias": null,
"is_unique": true,
"part_of_key": false
},
{
"name": "title",
"type": "str",
"column_mapping": "政策标题",
"alias": null,
"is_unique": false,
"part_of_key": false
},
{
"name": "issueDate",
"type": "str",
"column_mapping": "发文日期",
"alias": null,
"is_unique": false,
"part_of_key": false
},
{
"name": "documentNumber",
"type": "str",
"column_mapping": "发文字号",
"alias": null,
"is_unique": false,
"part_of_key": false
},
{
"name": "content",
"type": "str",
"column_mapping": "政策相关原文",
"alias": null,
"is_unique": false,
"part_of_key": false
}
],
"source_name": "file"
},
{
"label": "Organization",
"properties": [
{
"name": "name",
"type": "str",
"column_mapping": "发文机构",
"alias": null,
"is_unique": true,
"part_of_key": false
}
],
"source_name": "file"
},
{
"label": "PolicyType",
"properties": [
{
"name": "name",
"type": "str",
"column_mapping": "类型",
"alias": null,
"is_unique": true,
"part_of_key": false
}
],
"source_name": "file"
},
{
"label": "PolicyStatus",
"properties": [
{
"name": "name",
"type": "str",
"column_mapping": "状态",
"alias": null,
"is_unique": true,
"part_of_key": false
}
],
"source_name": "file"
}
],
"relationships": [
{
"type": "ISSUED_BY",
"properties": [],
"source": "Policy",
"target": "Organization",
"source_name": "file"
},
{
"type": "HAS_TYPE",
"properties": [],
"source": "Policy",
"target": "PolicyType",
"source_name": "file"
},
{
"type": "HAS_STATUS",
"properties": [],
"source": "Policy",
"target": "PolicyStatus",
"source_name": "file"
}
],
"metadata": null
}

基本达到专业水准，可用！

结构清晰

核心实体（Policy）与维度实体（Organization、Type、Status）分离，符合规范化设计
语义明确

节点标签与关系类型命名直观，准确表达政策“由谁发布、属于什么类型、处于什么状态”
可落地性强

每个属性明确对应源表字段（column_mapping），便于从表格数据一键导入
主键设计合理

policyId 唯一标识政策，name 在维度节点上设为唯一，避免重复
轻量高效

无冗余属性，关系无复杂字段，适合快速构建与查询

现在，我们组个展开，他背后是怎样做的！

第一部分：数据发现与分析

之前的内容也讲过

数据发现，是知识工程中最重要工作没有之一

先盘点手上有哪些数据，做数据清单，这些清单都对应着哪些功能实现

这里的所有方法，浓缩精华

都写到了Agent的SOP中，他可以用这些方法，发现洞见，并指导一步步地生成

先，停下来理解特征之间的关系，哪些功能不需要，哪些节点因缺失数据变得没价值，等等！

你不用是数据工程师，但有LLM帮你，弥合差距！

但用户的任务，是各种各样的！

这个用户干医疗的、那个干电力的，领域不同，任务不同，侧重点也不同！

我们接入一个功能：支持自然语言/大白话，描述任务

Agent会为数据建模阶段生成丰富的上下文/背景信息，作为 Python 字典或 UserInput 对象

这个输入

可以写：任务的描述

也可以写：每个数据标签的描述功能

更可以写：任何希望图数据模型处理的示例+参照

这里的每一个输入，都是一个Agent数据建模时的考虑权重

稍后第四部分，也会讲代码如何实现

充分挖掘数据，有了数据报告和指引，下一个工序，就是数据建模了

第二部分：数据智能建模

这背后，是一个非常复杂的算法

我们会用到2个内容，作为输入：

1，数据分析报告

2，用户的任务输入

为了满足任务需要，我们指导LLM做出数据模型，强制LLM输出JSON与Pydantic！

生成的数据模型会自动遵循 Neo4j 的命名规范：

节点标签（Label）

使用 PascalCase（如 Person、MedicalEquipment）
关系类型（Relationship Type）

使用 SCREAMING_SNAKE_CASE（如 BELONGS_TO、REQUIRES_MAINTENANCE）
属性（Property）

使用 camelCase（如 createdAt、lastInspectionDate）

LLM返回的结构化JSON与数据模型，会与数据源进行验证

验证通过后，我们还会再做一次强制的验证

确保：

关系源和目标存在性、唯一属性，以及节点/关系属性名称映射到源数据中

经过双重验证后，确保高质量数据模型

也是在确保高质量的知识图谱

因为我们做的是85分的通用方案，各种各样的数据都会有，想让LLM做得更好，更贴切，也可以直接自然语言+大白话告诉Agent！

他会综合意见，重新再做！

直到做到高分为止，你也可以根据版本迭代，v1/v2/v3…

支持历史记录保存

第三部分：一键抽取评估入库

上面

相当于圈了地，还没开始做任务，种小麦

接下来这步，就是精准拿到小麦种子

然后在一片空地，找到属于自己那一亩

种下去

以前，用各种各样的方法去处理数据

现在，我们把这些处理方法都打包起来

一键实现抽取入库

neo4j的数据导入，需要生成 Cypher 代码来创建约束并加载数据

我们通过 GraphDataModeler 类的 current_model 属性传递当前数据模型

这一步会发生几件事：

1，链接本地的neo4j（需要填写本地的neo4j的用户名/密码）

2，通过数据模型批量化抽取

3，导入到neo4j中

整个过程非常快

接下来，我们会演示他是通过什么代码实现

第四部分：边跑代码，边聊细节

今天我们会从最基础的环境搭建开始，然后安装依赖，然后一键运行！

运行起来后，我们展开关键基本的代码实现！

4.1 运行过程

你要准备环境，清单如下

操作系统：三大系统均可，无指定

大模型：所有兼容OpenAI API的key，可本地ollama/vllm

环境管理：miniconda

知识图谱：neo4j

数据建模可视化：graphviz

前端：streamlit

搭建好之后，跟着指令继续！

创建conda环境！

指定Python3.11，名称11kg

conda create -n 11kg python=3.11 -y

激活该环境！

conda activate 11kg

进入放代码的目录中！

cd y/y/11kg

安装依赖！

工程师把项目的依赖，都打包起来了

使用阿里源，安装好依赖

pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com

把你的api和本地neo4j的账号密码，填写到.env的文件中！

NEO4J_USERNAME="neo4j"
NEO4J_PASSWORD="password"
NEO4J_URI="neo4j://localhost:7687"
NEO4J_DATABASE="neo4j"
OPENAI_API_KEY="sk-dd1b45b***834e1dd7344e29ce7fff4b"
OPENAI_BASE_URL="https://a***.com/v1"
MODEL_NAME="qwen3-max"

程序会自动加载！

运行streamlit！

streamlit run app.py --server.headless true --server.port 8514

会自动跳转到浏览器，服务端口就在8514

你就来到了这个界面了

你无需懂数据，甚至无需懂业务！

你只需要讲想做什么！

LLM会自动帮你补齐专业的知识！

最后

为什么要学AI大模型

当下，⼈⼯智能市场迎来了爆发期，并逐渐进⼊以⼈⼯通⽤智能（AGI）为主导的新时代。企业纷纷官宣“ AI+ ”战略，为新兴技术⼈才创造丰富的就业机会，⼈才缺⼝将达 400 万！

DeepSeek问世以来，生成式AI和大模型技术爆发式增长，让很多岗位重新成了炙手可热的新星，岗位薪资远超很多后端岗位，在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合，飞速发展，成为炙手可热的新风口，企业非常需要了解AI、懂AI、会用AI的员工，纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型，后台也经常会有小伙伴咨询学习路线和学习资料，我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料，这些学习资料不仅深入浅出，而且非常实用，让大家系统而高效地掌握AI大模型的各个知识点。