【程序员必看】GraphRAG：微软开源大模型新框架，让AI真正理解百万级文本全局内容

最新推荐文章于 2025-10-31 15:16:33 发布

原创最新推荐文章于 2025-10-31 15:16:33 发布 · 1.1k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #转行 #大模型 #ai #程序员 #产品经理 #学习

From Local to Global: A GraphRAG Approach to Query-Focused Summarization

本文提出GraphRAG，一种基于图的检索增强生成（RAG）方法，旨在解决传统向量RAG在处理全局问题（如“数据集中的主要主题是什么”）时的不足。其核心是利用大语言模型（LLM）构建知识图谱（实体及关系），并通过社区检测生成层级化社区摘要，最终通过“映射-归约”（map-reduce）处理生成全局答案。实验表明，在约100万token的数据集上，GraphRAG在回答的全面性（ Podcast数据集72-83%、新闻数据集72-80%）和多样性（Podcast数据集75-82%、新闻数据集62-71%）上显著优于传统向量RAG，且在 token 效率上更具优势。

1. 研究背景与动机

传统的检索增强生成（RAG） 方法（如向量RAG）通过检索与查询语义相似的文本块回答问题，但仅适用于局部信息查询，无法处理需要全局理解的“感知任务”（如“数据集中的关键趋势是什么”）。现有查询聚焦摘要（QFS）方法则难以适应大规模文本。为此，本文提出GraphRAG，结合知识图谱与层级化社区摘要，实现对大规模文本的全局理解。

检索增强生成（RAG）是一种成熟的方法，用于利用大型语言模型（LLMs）基于无法容纳在语言模型上下文窗口中的数据来回答查询，这里的上下文窗口指的是大型语言模型一次可处理的最大token数量（文本单位）。在典型的RAG设置中，系统可访问大型外部文本记录语料库，并检索一部分记录，这些记录单独与查询相关，且整体规模足够小，能够放入大型语言模型的上下文窗口中。随后，大型语言模型会基于查询和检索到的记录生成响应。我们将这类传统方法统称为向量RAG，它们在处理可通过少量记录中的局部信息回答的查询时表现良好。然而，向量RAG方法无法支持感知类查询，即需要对整个数据集有全局理解才能回答的查询，例如“过去十年中，跨学科研究对科学发现的影响有哪些关键趋势？”

感知类任务需要对“（人、地点、事件之间的）关联进行推理，以预测其发展轨迹并有效采取行动”（Klein等人，2006）。像GPT（Achiam等人，2023；Brown等人，2020）、Llama（Touvron等人，2023）和Gemini（Anil等人，2023）这样的大型语言模型，在科学发现（Microsoft，2023）和情报分析（Ranade和Joshi，2023）等复杂领域的感知任务中表现出色。给定一个感知类查询和一篇包含隐含且相互关联概念的文本，大型语言模型能够生成回答该查询的摘要。然而，当数据量大到需要采用RAG方法时，问题就出现了，因为向量RAG方法无法支持对整个语料库的感知分析。

在本文中，提出了 GraphRAG ——一种基于图的RAG方法，能够对大型文本语料库的整体进行感知分析。GraphRAG首先利用大型语言模型构建知识图谱，其中节点对应语料库中的关键实体，边表示这些实体之间的关系。接着，它将图谱划分为紧密关联实体群组的层级社区结构，然后利用大型语言模型生成社区级别的摘要。这些摘要按照提取出的社区层级结构，以自底向上的方式生成，层级结构中较高层级的摘要会递归整合较低层级的摘要。这些社区摘要共同提供了关于语料库的全局描述和见解。最后，GraphRAG通过对社区摘要的映射-归约（map-reduce）处理来回答查询：在映射阶段，利用这些摘要独立且并行地生成针对查询的部分回答；在归约阶段，将这些部分回答合并，进而生成给用户的最终全局回答。

GraphRAG方法及其对整个语料库进行全局感知分析的能力是本研究的主要贡献。为了证明这种能力，我们开发了一种新的“大型语言模型作为评判者”技术的应用（Zheng等人，2024），该技术适用于针对广泛问题和主题且没有标准答案的情况。这种方法首先利用一个大型语言模型，基于特定语料库的使用场景生成一系列多样化的全局感知类问题，然后利用另一个大型语言模型，根据预定义的标准（详见3.3节）对两个不同RAG系统的回答进行评判。我们使用这种方法，在两个具有代表性的真实世界文本数据集上对GraphRAG和向量RAG进行了比较。结果表明，当使用GPT-4作为大型语言模型时，GraphRAG的性能显著优于向量RAG。

GraphRAG作为开源软件可在https://github.com/microsoft/graphrag获取。此外，GraphRAG方法的多个版本还作为扩展集成到了多个开源库中，包括LangChain、LlamaIndex、NebulaGraph和Neo4J。
在这里插入图片描述

RAG方法与系统

检索增强生成（RAG）通常指的是这样一类系统：用户查询被用于从外部数据源检索相关信息，随后这些信息被整合到大型语言模型（或其他生成式AI模型，如多媒体模型）对查询的响应生成过程中（Ram等人，2023）。查询和检索到的记录会填充到一个提示模板中，然后将该模板传递给大型语言模型。当数据源中的记录总量过大，无法在单个提示中全部包含给大型语言模型时（即数据源中的文本量超过了大型语言模型的上下文窗口），RAG就显得尤为适用。

在典型的RAG方法中，检索过程会返回一定数量的与查询语义相似的记录，生成的回答仅使用这些检索到的记录中的信息。传统RAG的一种常见做法是使用文本嵌入，在向量空间中检索与查询最接近的记录，这里的“接近度”对应语义相似度（Gao等人，2023）。尽管有些RAG方法可能采用其他检索机制，但我们将这类传统方法统称为向量RAG。GraphRAG与向量RAG的不同之处在于，它能够回答需要对整个数据语料库进行全局感知分析的查询。

GraphRAG建立在先进RAG策略的相关研究基础之上。它利用对数据源大段内容的摘要作为一种“self-memory”（如Cheng等人，2024所述），这些摘要随后会被用于回答查询（如Mao等人，2020的做法）。这些摘要以并行方式生成，并迭代聚合为全局摘要，这与先前的一些技术类似。具体而言，GraphRAG与其他使用层级索引来创建摘要的方法（如Kim等人，2023；Sarthi等人，2024）有相似之处。但GraphRAG的独特之处在于，它从源数据中生成图索引，然后应用基于图的社区检测来对数据进行主题划分。

知识图谱与大型语言模型及RAG的结合

从自然语言文本语料库中提取知识图谱的方法包括规则匹配、统计模式识别、聚类和嵌入等。GraphRAG属于较新的研究领域，即利用大型语言模型进行知识图谱提取。它还丰富了利用知识图谱作为索引的RAG方法体系（Gao等人，2023）。一些技术直接将子图、图的元素或图结构的属性用于提示中，或作为生成输出的事实依据则利用知识图谱来增强检索，在查询时，一个基于大型语言模型的智能体动态遍历图，其中节点代表文档元素（如段落、表格），边则编码词汇、语义相似性或结构关系。GraphRAG与这些方法的不同之处在于，它关注了图在这一背景下一个未被探索的特性：其固有的模块性（Newman，2006）以及将图划分为紧密关联节点的嵌套模块化社区的能力。具体来说，GraphRAG通过利用大型语言模型创建跨越这种社区层级的摘要，递归地生成越来越具全局性的摘要。

RAG评估的自适应基准测试

现有许多开放域问答的基准数据集，包括HotPotQA（Yang等人，2018）、MultiHop-RAG（Tang和Yang，2024）和MT-Bench（Zheng等人，2024）。然而，这些基准主要针对向量RAG的性能，即评估其在显式事实检索上的表现。在本研究中，我们提出了一种生成用于评估对整个语料库全局感知分析的问题集的方法。我们的方法与利用语料库生成问题的大型语言模型方法相关，这些问题的答案是语料库的摘要（如Xu和Lapata，2021）。但为了保证评估的公平性，我们的方法避免直接从语料库本身生成问题（作为替代方案，可以使用语料库的一个子集，该子集不参与后续的图提取和回答评估步骤）。

自适应基准测试指的是动态生成针对特定领域或使用场景的评估基准的过程。近期研究已将大型语言模型用于自适应基准测试，以确保其相关性、多样性，并与目标应用或任务保持一致（Yuan等人，2024；Zhang等人，2024b）。在本研究中，我们提出了一种自适应基准测试方法，用于为大型语言模型生成全局感知类查询。我们的方法建立在基于大型语言模型的角色生成研究基础之上，即利用大型语言模型生成多样化且真实的角色集（Kosinski，2024；Salminen等人，2024；Shin等人，2024）。我们的自适应基准测试流程利用角色生成来创建能够代表真实世界RAG系统使用场景的查询。具体而言，我们的方法利用大型语言模型推断可能使用RAG系统的潜在用户及其使用场景，以此为指导生成特定于语料库的感知类查询。

RAG评估标准

评估依赖大型语言模型来评估RAG系统对生成的问题的回答效果。先前的研究表明，大型语言模型在自然语言生成评估方面表现出色，包括在某些情况下，大型语言模型的评估结果可与人类评估相媲美（Wang等人，2023a；Zheng等人，2024）。一些先前的研究提出了用于让大型语言模型量化生成文本质量的标准，如“流畅性”（Wang等人，2023a）。其中一些标准是向量RAG系统特有的，与全局感知分析无关，例如“上下文相关性”“忠实性”和“回答相关性”（RAGAS，Es等人，2023）。由于缺乏黄金标准用于评估，我们可以通过提示大型语言模型对两个不同竞争模型的生成结果进行比较，来量化特定标准下的相对性能（“大型语言模型作为评判者”，Zheng等人，2024）。在本研究中，我们设计了用于评估RAG系统对全局感知类问题生成的回答的标准，并采用比较方法对结果进行评估。我们还使用从大型语言模型提取的可验证事实陈述（即“声明”）衍生的统计数据来验证结果。

使用 LLM 派生的源文档文本的图形索引绘制 RAG 管道。该图索引跨越节点（例如实体）、边（例如关系）和协变量（例如，声明），这些节点（例如，边缘）已通过针对数据集领域量身定制的 LLM 提示检测、提取和汇总。社区检测（例如，Leiden，Traag 等人，2019 年）用于将图索引划分为一组元素（节点、边、协变量），LLM 可以在索引时和查询时并行汇总这些元素。给定查询的“全局答案”是使用最后一轮以查询为中心的摘要生成的，这些摘要报告了与该查询的相关性。

GraphRAG核心方法

2.1 索引阶段（Indexing Time）

文本分块：文档被拆分为600token的块（含100token重叠），平衡LLM调用成本与信息召回率。
实体与关系提取：LLM从文本块中提取实体（如组织、人物）、关系（含强度评分）及事实声明（claims）（可验证的事实），并通过“自反思”（self-reflection）减少遗漏。
知识图谱构建：实体作为节点，关系作为边（权重为关系出现次数），合并重复实体（精确字符串匹配）。
社区检测：采用Leiden算法生成层级化社区（C0至C3），C0为根社区（数量最少），C3为叶社区（数量最多），覆盖所有节点且互不重叠。
社区摘要：自底向上生成摘要，叶社区（C3）优先整合高重要性实体/关系，高层社区（如C0）递归整合子社区摘要，确保信息在token限制内完整。

2.2 查询阶段（Query Time）

映射（map）：各社区摘要独立生成部分答案，并评分（0-100，0分答案被过滤）。
归约（reduce）：按评分排序部分答案，迭代加入上下文窗口（8k token），生成最终全局答案。

3.1 GraphRAG工作流程

图1展示了GraphRAG方法和流程的高层数据流。在本节中，我们将描述每个步骤的关键设计参数、技术和实现细节。

3.1.1 源文档→文本块

首先，语料库中的文档被拆分为文本块。LLM从每个块中提取信息用于后续处理。块大小的选择是一个基本设计决策：较长的文本块需要更少的LLM调用（从而降低成本），但会导致块中早期出现的信息召回率下降（Kuratov等人，2024；Liu等人，2023）。详见A.1节中的提示示例和召回率-精确率权衡分析。

3.1.2 文本块→实体与关系

在这一步中，通过提示LLM从给定文本块中提取重要实体实例及其间的关系。此外，LLM还会为实体和关系生成简短描述。例如，假设某文本块包含以下内容：

“

NeoChip（NC）的股票在NewTech交易所上市首周飙升。然而，市场分析师警告，这家芯片制造商的公开上市可能无法反映其他科技公司IPO的趋势。NeoChip此前为私营企业，于2016年被Quantum Systems收购。这家创新半导体公司专注于可穿戴设备和物联网设备的低功耗处理器。

通过提示LLM，可提取出以下内容：

实体NeoChip，描述为“NeoChip是一家专注于可穿戴设备和物联网设备低功耗处理器的上市公司。”
实体Quantum Systems，描述为“Quantum Systems是一家曾拥有NeoChip的公司。”
NeoChip与Quantum Systems之间的关系，描述为“Quantum Systems在2016年至NeoChip上市期间拥有NeoChip。”

这些提示可通过选择适合领域的少样本示例进行上下文学习（Brown等人，2020），从而适配文档语料库的领域。例如，我们的默认提示提取“命名实体”这一广泛类别（如人物、地点、组织），具有普遍适用性；而对于具有专业知识的领域（如科学、医学、法律），则可受益于针对这些领域的少样本示例。

还可通过提示LLM提取关于检测到的实体的声明。声明是关于实体的重要事实陈述，如日期、事件及与其他实体的交互。与实体和关系类似，上下文学习示例可提供领域特定指导。从上述示例文本块中提取的声明描述如下：

NeoChip的股票在NewTech交易所上市首周飙升。
NeoChip在NewTech交易所首次公开上市。
Quantum Systems于2016年收购NeoChip，并持有其股权直至NeoChip上市。

实体和声明提取的提示及实现细节详见附录A。

3.1.3 实体与关系→知识图谱

使用LLM提取实体、关系和声明是一种抽象总结方式——这些是对概念的有意义概括，对于关系和声明而言，可能并非在文本中明确表述。实体/关系/声明提取过程会产生同一元素的多个实例，因为一个元素通常会在多个文档中被多次检测和提取。

在知识图谱提取过程的最后一步中，这些实体和关系实例成为图中的单个节点和边。每个节点和边的实体描述会被聚合和总结。关系被聚合为图的边，其中特定关系的重复次数成为边权重。声明的聚合方式与此类似。

在本文中，我们的分析使用精确字符串匹配进行实体匹配——即调和同一实体的不同提取名称（Barlaug和Gulla，2021；Christen和Christen，2012；Elmagarmid等人，2006）。然而，通过对提示或代码进行微小调整，可使用更灵活的匹配方法。此外，GraphRAG对重复实体具有较强的容错性，因为重复实体通常会在后续步骤中被聚类在一起进行总结。

3.1.4 知识图谱→图社区

基于上一步创建的图索引，可使用多种社区检测算法将图划分为强连接节点社区（参见Fortunato（2010）和Jin等人（2021）的综述）。在我们的流程中，我们以层级方式使用Leiden社区检测（Traag等人，2019），在每个检测到的社区中递归检测子社区，直至无法再划分的叶社区。

该层级结构的每个级别都提供了一个社区分区，以互斥且完全穷尽的方式覆盖图的节点，从而实现分而治之的全局总结。示例数据集的这种层级分区示意图见附录B。

3.1.5 图社区→社区摘要

下一步是为社区层级中的每个社区创建报告式摘要，所使用的方法旨在适应超大规模数据集。这些摘要本身可用于理解数据集的全局结构和语义，即使在没有特定查询的情况下，也有助于理解语料库。例如，用户可浏览某一级别的社区摘要以寻找感兴趣的一般主题，然后阅读更低级别的关联报告以获取每个子主题的更多细节。然而，在此我们重点关注其作为基于图的索引的一部分在回答全局查询中的作用。

GraphRAG通过将各种元素摘要（节点、边和相关声明）添加到社区摘要模板中来生成社区摘要。高层社区的摘要基于低层社区的摘要生成，具体如下：

叶级社区：优先处理叶级社区的元素摘要，然后迭代添加到LLM上下文窗口中，直至达到token限制。优先级规则为：对于每个社区边，按源节点和目标节点的合并度（即整体重要性）降序排列，添加源节点、目标节点、边本身的描述及相关声明。
高层社区：如果所有元素摘要均可放入上下文窗口的token限制内，则按照叶级社区的处理方式总结社区内的所有元素摘要。否则，按元素摘要token数降序排列子社区，迭代用子社区摘要（较短）替换其关联的元素摘要（较长），直至符合上下文窗口限制。

3.1.6 社区摘要→社区答案→全局答案

给定用户查询，可通过多阶段过程使用上一步生成的社区摘要生成最终答案。社区结构的层级性质意味着可使用不同层级的社区摘要来回答问题，这引出了一个问题：层级社区结构中的特定级别是否能在一般感知类问题的摘要细节和范围之间达到最佳平衡（见第4节的评估）。

对于特定的社区级别，任何用户查询的全局答案生成过程如下：

准备社区摘要：将社区摘要随机打乱并划分为预定义token大小的块。这确保相关信息分布在多个块中，而非集中在单个上下文窗口中（可能导致信息丢失）。
映射社区答案：并行生成中间答案。同时要求LLM生成0-100的分数，表示生成的答案对回答目标问题的帮助程度。过滤掉得分为0的答案。
归约为全局答案：按帮助度分数降序排列中间社区答案，迭代添加到新的上下文窗口中，直至达到token限制。使用该最终上下文生成返回给用户的全局答案。

3.2 全局感知问题生成

为评估RAG系统在全局感知任务中的有效性，我们使用LLM生成一组特定于语料库的问题，旨在评估对给定语料库的高层理解，而无需检索特定的低层事实。具体而言，给定语料库的高层描述及其用途，提示LLM生成RAG系统的假设用户角色。然后，针对每个假设用户，提示LLM明确其使用RAG系统完成的任务。最后，针对每个用户-任务组合，提示LLM生成需要理解整个语料库的问题。算法1描述了该方法。

算法1：问题生成的提示流程

输入：语料库描述、用户数量K、每个用户的任务数量N、每个（用户、任务）组合的问题数量M。
输出：KNM个需要全局理解语料库的高层问题。
过程GENERATEQUESTIONS
基于语料库描述，提示LLM：

需要理解整个语料库。
不需要检索特定的低层事实。

描述K个潜在的数据集用户角色。
为每个用户确定N个相关任务。
针对每个用户和任务对，生成M个高层问题，要求：
收集生成的问题，为数据集生成KNM个测试问题。
结束过程

在我们的评估中，设置K=M=N=5，每个数据集共生成125个测试问题。表1展示了两个评估数据集的示例问题。

3.3 全局感知的评估标准

鉴于我们的基于活动的感知类问题缺乏标准答案，我们采用头对头比较方法，使用LLM评估器根据特定标准判断相对性能。我们设计了三个目标标准，用于捕捉全局感知活动中期望的质量：

附录F展示了用于LLM评估器计算头对头指标的提示，总结如下：

全面性：答案提供了多少细节以涵盖问题的所有方面和细节？
多样性：答案在提供关于问题的不同视角和见解方面有多丰富多样？
赋能性：答案在多大程度上帮助读者理解主题并做出明智判断？

此外，我们使用一个名为“直接性”的“控制标准”，即“答案对问题的针对性和清晰度如何？”简言之，直接性评估答案在一般意义上的简洁性，适用于任何LLM生成的总结。我们将其作为参考，以判断其他标准结果的合理性。由于直接性与全面性和多样性本质上存在冲突，我们不期望任何方法能在所有四个标准中都胜出。

在评估中，向LLM提供问题、两个竞争系统的生成答案，并提示其根据标准比较两个答案，然后给出最终判断（哪个答案更优）。LLM要么指出获胜者，要么在两者基本相似时判定为平局。为考虑LLM生成的固有随机性，我们对每个比较进行多次重复，并对重复结果和问题结果取平均值。附录D提供了LLM对样本问题答案的评估示例。

3. 实验设计

3.1 数据集

Podcast transcripts：1669个文本块，~100万token（来自“Behind the Tech”播客）。
新闻文章：3197个文本块，~170万token（2013-2023年多类别新闻）。

3.2 对比条件

条件	描述
C0-C3	GraphRAG，分别使用根社区（C0）至叶社区（C3）的摘要
TS	直接对源文本块进行“映射-归约”摘要
SS	向量RAG，检索语义相似文本块直至填满上下文窗口

3.3 评估方法

LLM-as-judge：通过LLM生成125个全局问题（基于用户角色与任务），并对比答案的全面性（覆盖问题各方面）、多样性（多视角）、赋能性（辅助决策）、直接性（简洁性）。
事实声明分析：提取答案中的claims，以数量衡量全面性，以聚类数（基于1-ROUGE-L距离）衡量多样性。

实验结果

4.1 核心性能对比

全面性：GraphRAG（C0-C3）在Podcast数据集上的胜率为72-83%（p<0.001），新闻数据集为72-80%（p<0.001），显著高于SS。
多样性：GraphRAG在Podcast数据集胜率75-82%（p<0.001），新闻数据集62-71%（p<0.01），优于SS。
token效率：C0的token需求仅为TS的2.3-2.6%（见表2），大幅降低成本。

4.2 事实声明验证

指标	结果
claims数量	GraphRAG（31-34个/答案）> SS（25-27个/答案）（p<0.05）
聚类多样性	GraphRAG的平均聚类数显著高于SS（尤其Podcast数据集，p<0.05）

5. 结论与展望

GraphRAG通过知识图谱与层级化社区摘要，有效支持大规模文本的全局理解，在全面性和多样性上优于传统RAG。未来可探索混合RAG方案及跨层级信息“钻取”机制。

关键问题：
GraphRAG与传统向量RAG的核心区别是什么？
答：传统向量RAG依赖语义相似性检索局部文本块，仅适用于局部信息查询；而GraphRAG通过构建知识图谱和层级化社区摘要，利用“映射-归约”处理全局信息，能回答需要理解整个 corpus 的问题（如主题总结）。实验显示，GraphRAG在全面性和多样性上显著优于向量RAG（胜率超70%）。
GraphRAG的社区摘要生成遵循哪些原则？
答：社区摘要生成采用自底向上策略：叶社区（C3）优先整合高重要性实体（按节点度）、关系及claims；高层社区（如C0）若子社区摘要超出token限制，则用子社区摘要替代元素细节。这一过程确保在token约束下保留关键信息，同时支持层级化的全局描述。
如何验证GraphRAG在全局理解任务中的有效性？
答：通过两种方式验证：（1）LLM-as-judge：生成125个基于真实场景的全局问题，对比显示GraphRAG在全面性和多样性上胜率显著高于传统方法；（2）事实声明分析：GraphRAG生成的可验证claims数量更多（平均31个/答案 vs SS的25-27个），且聚类多样性更高，从客观指标上印证其优势。