GraphRAG 为什么能增强生成式 AI ?一篇文章告诉你

检索增强生成(RAG)支持大型语言模型(LLMs)使用外部知识源回答问题。这个功能相信只要你用过一些 AI 工具可能都用到过。尽管如此,它在回答涉及整个文本语料库的全局问题时,例如识别主要主题、总结全文内容,仍存在一些挑战。这是因为这类问题往往要求模型具备对整体语料库内容的深度理解和全局视角,而不仅仅是依赖于局部检索到的信息。因此,在处理这类问题时,RAG 框架下的 LLMs 可能还需要额外的帮助或优化策略,以更好地整合和利用全局信息。

微软在 4 月提出的一项研究提出了GraphRAG,它结合了RAG和查询聚焦摘要(QFS)方法,用于可扩展的私有文本语料库上的问题回答。GraphRAG使用LLM创建基于图的文本索引,派生出一个知识图谱,并生成相关实体的社区摘要(Community Summaries)。当被问及问题时,这些摘要生成部分响应,这些响应被组合成最终答案。与普通的 RAG 方法相比,GraphRAG 明显提高了对大型数据集上全局问题的全面性和多样性。

检索增强生成(RAG)的局限性

RAG 的局限性:当答案可以在特定、可集散所的文本中找到时,RAG 回答问题的效果非常好。然而,如果答案需要从整个数据集中总结,然后回答普通问题时,它会遇到很大挑战。

QFS 相关性:查询聚焦摘要(QFS)更适合这些普通问题,因为它基于查询生成自然语言摘要,而不仅仅是提取文本摘录。

LLMs 方面的先进性:像 GPT、Llama 和 Gemini 这样的前沿大语言模型(LLMs)优化了所有总结类型的任务,使得不同种类的总结(抽象与提取、单文档与多文档)之间的区别变得不那么明显。

处理大型语料库的挑战:尽管有这些进步,总结整个语料库仍然具有挑战性,因为文本量通常超过LLMs的上下文窗口,导致潜在的信息丢失。

潜在的解决方案:一种新形式的预索引(pre-indexing )可以增强 RAG 方法,特别是对于全局摘要任务,通过更好地组织和总结大型数据集。

GraphRAG 是一种新方法,它使用由 LLM 创建的知识图谱进行全局摘要。与之前专注于结构化图检索的方法不同,这种方法利用图的模块性将其划分为密切相关的组或社区。

这是它的工作原理:

  1. 社区摘要:LLM为这些社区生成摘要,提供对图和它涵盖的文档的完整概述。

  2. 查询回答:使用映射-归约方法来回答查询。首先,每个社区摘要被用来独立创建部分答案。然后,这些部分答案被组合成一个最终的、全面的回答。

为了测试这种方法,使用了包括播客转录和新闻文章在内的多样化真实世界数据集,以了解它如何处理关于广泛主题和问题的问题。

此外,GraphRAG 方法与传统 RAG 方法比较后,你会发现 GraphRAG 方法在成本更低的情况下提供了更全面和多样化的答案,特别是当使用来自社区层次结构中层级较低的摘要时。

简单介绍一下 GraphRAG

GraphRAG 是基于知识图谱的概念,它结合了大型语言模型(LLM)以提供智能、成本效益高且更准确的搜索结果。GraphRAG 旨在通过利用图结构更好地组织和总结信息,特别是处理广泛和复杂数据集时,克服传统 RAG 方法的限制。

GraphRAG 将图技术与检索增强生成相结合,增强了大型语言模型(LLM)处理和理解复杂信息的方式。以下是详细说明:

  1. 图数据库:它将信息组织为相互连接的节点(实体)和边(关系)的网络。这种结构非常适合以图形格式表示复杂的上下文和关系。

  2. 知识图谱:通过构建知识图谱,你提供了一个丰富的、结构化的上下文,这有助于LLM更好地

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值