本文我们将深入探讨如何使用Neo4j和LangGraph来实现GraphReader(GraphReader paper地址:https://arxiv.org/abs/2406.14550),这是一种从结构化知识图中检索信息的Agent。GraphReader的设计旨在从遵循预定义模式的知识图中提取信息,这种知识图更接近于文档或词汇图,包含文档、文档片段及相关元数据,以原子事实的形式呈现。

随着大数据和人工智能技术的快速发展,知识图谱在多个领域的应用日益广泛。GraphReader作为一种基于图的知识检索工具,能够高效地处理复杂查询,并从大规模知识图中提取相关信息。本文将详细介绍如何使用Neo4j作为存储层,结合LangChain和LangGraph来定义GraphReader Agent及其工作流程。
GraphReader概述
GraphReader是一种基于图的智能Agent,旨在从遵循特定模式的知识图中检索信息。与常见的展示用图不同,GraphReader所处理的知识图更接近文档或词汇图,包含文档、文档片段及相关元数据。这些元数据以原子事实的形式呈现,每个原子事实都是一个清晰、独立的信息片段。
1 知识图构建
GraphReader的图构建和GraphRAG的图谱构建不太相同,GraphReader的图谱构建更简单、容易一些。
在GraphReader的实现中,知识图由文档、文档片段及原子事实组成。

上面的图示例了一个知识图,从顶部开始是一个标记为“Joan of Arc”的文档节点。该文档被分解为文本块,由编号的圆形节点(0、1、2、3)表示,这些节点通过NEXT关系顺序连接,指示块在文档中的出现顺序。在文本块下方,图进一步分解为原子事实,其中关于内容的具体陈述被表示出来。最后,在图的底层,我们看到关键元素,以圆形节点表示,主题如历史图标、丹麦、法国国家和法国。这些元素作为元数据,将事实链接到与文档相关的更广泛主题和概念。
举个例子:
首先,将文档拆分为块。在论文中,他们在分块时保持段落结构。然而,以通用方式做到这一点是困难的。因此,我们将在这里使用简单的分块。
接下来,每个块由LLM处理,以识别原子事实,这些事实是捕捉核心细节的最小、不可分割的信息单元。例如,从句子“Neo4j的首席执行官在瑞典,是Emil Eifrem”中,一个原子事实可以被分解为“Neo4j的首席执行官是Emil Eifrem。”和“Neo4j在瑞典。”每个原子事实专注于一个清晰的、独立的信息片段。
从这些原子事实中,识别关键元素。对于第一个事实“Neo4j的首席执行官是Emil Eifrem”,关键元素将是“首席执行官”、“Neo4j”和“Emil Eifrem”。对于第二个事实“Neo4j在瑞典”,关键元素将是“Neo4j”和“瑞典”。这些关键元素是捕捉每个原子事实核心含义的基本名词和专有名词。
具体的提取prompt大家可以自行查阅原始论文,这里就不在赘述。
2 Agent工作流程
GraphReader Agent的工作流程包括以下几个步骤:
-
理性规划:Agent首先根据查询问题制定一个理性计划,明确需要哪些关键信息和步骤来解答问题。
-
初始节点选择:基于理性计划,Agent从知识图中选择初始节点(关键元素)作为搜索的起点。
-
原子事实检查:Agent检查与初始节点相关联的原子事实,以获取初步信息。
-
文本块检查:如果原子事实不足以回答问题,Agent会读取相关的文本块,并评估是否需要进一步读取其他文本块。
-
邻居探索:如果当前节点和文本块无法提供足够信息,Agent会探索邻居节点,以寻找更多相关信息。
-
答案推理:基于收集到的信息,Agent进行推理,并给出最终答案。

Neo4j与LangGraph的结合
1 Neo4j作为存储层
Neo4j是一个高性能的图数据库,它使用图结构来存储和查询数据。在GraphReader的实现中,我们选择Neo4j作为存储层,因为它能够高效地处理复杂的图查询,并支持大规模数据的存储和检索。
为了使用Neo4j,我们需要先设置Neo4j数据库。这可以通过在Neo4j Aura上启动一个免费实例来实现,或者通过下载Neo4j Desktop应用程序并在本地创建数据库实例来完成。

2 LangGraph定义Agent流程
LangGraph是LangChain的一部分,它提供了一种抽象的方式来定义和执行复杂的Agent流程。在GraphReader的实现中,我们使用LangGraph来定义Agent的工作流程,包括节点选择和状态更新等。
2.1 节点定义
在LangGraph中,每个节点都是一个函数,它接收当前状态作为输入,并更新状态作为输出。我们定义了多个节点来处理GraphReader的不同阶段,包括理性规划节点、初始节点选择节点、原子事实检查节点、文本块检查节点和邻居选择节点等。
2.2 状态传递
在LangGraph中,状态是沿着节点传递的。每个节点都会根据当前状态执行相应的操作,并更新状态以供后续节点使用。通过这种方式,GraphReader Agent能够逐步收集信息,并最终给出答案。
2.3 graph核心代码示例
完整代码:(https://github.com/tomasonjo/blogs/tree/master/graphreader)

通过结合Neo4j和LangGraph,我们成功地实现了GraphReader Agent,用于从结构化知识图中检索信息。GraphReader Agent的工作流程灵活且高效,能够处理复杂的信息检索任务。此外,该系统的实现还展示了图数据库和大型语言模型在知识检索领域的巨大潜力。

未来,我们可以进一步优化GraphReader Agent的性能,例如通过引入更复杂的图搜索算法或改进大型语言模型的性能。同时,我们也可以探索将GraphReader应用于其他领域,如生物医学、法律和金融等。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】
1463

被折叠的 条评论
为什么被折叠?



