如何构建知识图谱：从文本到结构化数据

最新推荐文章于 2025-07-24 11:03:00 发布

原创最新推荐文章于 2025-07-24 11:03:00 发布 · 755 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#知识图谱 #人工智能 #python

在今天的数字时代，知识图谱已经成为许多应用程序的重要组成部分，尤其是在检索增强生成（RAG）应用程序中。知识图谱允许基于复杂关系和模式进行信息的深层次分析和高效导航。本文将深入探讨如何从非结构化文本中构建知识图谱，并实现存储到图数据库中。

技术背景介绍

知识图谱是一种能够表达知识单元之间关系的结构化数据模型。传统上，文本数据是非结构化的，使得分析和提取信息变得困难。而通过自然语言处理（NLP）技术，可以将这些非结构化文本转化为结构化知识图谱，便于执行进一步的查询和分析。

核心原理解析

知识图谱的构建涉及两个主要步骤：

从文本中提取结构化信息：使用模型从文本中提取节点和关系等结构化信息。
存储到图数据库：将提取的结构化信息存储到图数据库中，以支持后续的RAG应用。

代码实现演示

首先，我们需要安装必要的软件包并设置环境变量。在本示例中，我们将使用Neo4j图数据库。

# 安装必要的软件包
%pip install --upgrade --quiet langchain langchain-community langchain-openai langchain-experimental neo4j

# 设置OpenAI API密钥
import getpass
import os

os.environ["OPENAI_API_KEY"] = getpass.getpass()

接下来，我们定义Neo4j的凭据和连接。

import os
from langchain_community.graphs import Neo4jGraph

# 设置Neo4j连接信息
os.environ["NEO4J_URI"] = "bolt://localhost:7687"
os.environ["NEO4J_USERNAME"] = "neo4j"
os.environ["NEO4J_PASSWORD"] = "password"

# 初始化Neo4j图对象
graph = Neo4jGraph()

使用语言模型（LLM）提取文本中的图数据。

from langchain_experimental.graph_transformers import LLMGraphTransformer
from langchain_openai import ChatOpenAI

# 初始化OpenAI模型用于图转换
llm = ChatOpenAI(temperature=0, model_name="gpt-4-turbo")
llm_transformer = LLMGraphTransformer(llm=llm)

# 示例文本
from langchain_core.documents import Document

text = """
Marie Curie, born in 1867, was a Polish and naturalised-French physicist and chemist who conducted pioneering research on radioactivity.
She was the first woman to win a Nobel Prize, the first person to win a Nobel Prize twice, and the only person to win a Nobel Prize in two scientific fields.
Her husband, Pierre Curie, was a co-winner of her first Nobel Prize, making them the first-ever married couple to win the Nobel Prize and launching the Curie family legacy of five Nobel Prizes.
She was, in 1906, the first woman to become a professor at the University of Paris.
"""

# 转换为图文档
documents = [Document(page_content=text)]
graph_documents = llm_transformer.convert_to_graph_documents(documents)
print(f"Nodes:{graph_documents[0].nodes}")
print(f"Relationships:{graph_documents[0].relationships}")

存储生成的图文档到Neo4j数据库。

# 存储到图数据库
graph.add_graph_documents(graph_documents)

应用场景分析

知识图谱能够被应用于多种场景，包括但不限于：

信息检索：通过图谱结构快速定位信息。
数据分析：通过图谱关系发掘潜在的模式和趋势。
自然语言处理：在问答系统中通过图谱更准确地理解用户查询。

实践建议

在实施知识图谱构建时，注意以下几点：

数据验证：确保从文本中提取的数据准确无误。
模型选择：选择合适的LLM以提高图数据的提取准确性。
安全性：遵循最佳安全实践以确保数据的完整性和保密性。

如果遇到问题欢迎在评论区交流。

—END—