简介
GraphRAG 是使用知识图谱的检索增强生成 (RAG)
您是否曾在深入研究检索增强生成 (RAG) 系统时偶然发现过 GraphRAG 这个术语?如果是,那么您并不孤单。这个术语正在引起轰动,但其含义却难以捉摸。有时,它是一种特定的检索方法;有时,它是指一整套软件套件,例如微软的 GraphRAG“数据管道和转换套件”。由于用途如此广泛,即使是最热衷于 RAG 讨论的人也会感到有些迷茫,这也就不足为奇了。
知识图谱简介
知识图谱尤其适用于表示具有关联元素的结构化和非结构化数据。与传统数据库不同,它们不需要严格的模式,数据模型更加灵活。图谱模型能够高效地存储、管理、查询和处理丰富的现实世界信息。在 RAG 系统中,知识图谱充当了 LLM 语言技能(例如摘要、翻译和提取)的灵活记忆伴侣。
在知识图谱中,事实和实体被表示为
节点,这些节点具有通过类型化
关系连接的属性,这些属性也带有限定属性。这种图谱模型可以从简单的家谱扩展到公司的完整数字孪生,涵盖员工、客户、流程、产品、合作伙伴和资源,拥有数百万甚至数十亿个连接。
图形结构可以来自各种来源,来自结构化的业务领域、(分层)文档表示和图形算法计算的信号。
当我们深入研究检索模式时,我们会注意到最先进的技术是如何依赖于数据内部的联系的。无论是元数据过滤(例如搜索特定作者或特定主题的文章),还是父子检索器(导航回文本块的父级,为 LLM 提供广度,以获得上下文丰富的答案),这些方法都利用了待检索数据之间的关系。
通常,这些实现严重依赖于客户端数据结构和连接不同信息的大量 Python 代码。然而,在图形数据库中,建立真实的关系并使用简单的模式进行查询效率要高得多。
在几乎每个模式的图形模式中,您都会看到以下类型的实体
- 代表应用程序域的实体或域节点
- 域关系
- 表示被提取到图中的非结构化文档的文档节点
- 块节点
它们是大多数 GraphRAG 模式的基础,并且至少具有以下两个属性:文本和嵌入,其中文本包含块的人类可读文本字符串,嵌入包含文本的计算嵌入。

最低0.47元/天 解锁文章
2039

被折叠的 条评论
为什么被折叠?



