【AI大模型】如何构建高效的GraphRAG系统?这几种简化架构与工具你会选吗?看完你就懂了!!

前言

本文探讨了GraphRAG(检索增强生成)技术的实现方法,指出开发者在构建GraphRAG系统时往往过度依赖复杂的图数据库、查询语言和分析工具。作者强调,生成式AI的用例与传统图分析场景根本不同,大多数GraphRAG应用只需要进行局部邻域探索,而不需要复杂的全图分析。文章建议采用以向量存储为核心、按需添加图功能的简化架构,避免不必要的技术复杂性。

图片

当RAG开发者决定尝试GraphRAG时——即构建知识图谱并将其集成到他们的RAG(检索增强生成)系统中——根据互联网上的信息,他们有很多选择和决策要做。有大量的文章、指南和教程介绍了用于GraphRAG和一般图形处理的不同工具。因此,一些开发者直接投入其中,认为他们需要集成和配置一长串图工具和技术才能正确地实现GraphRAG 。

在搜索如何开始时,你通常会发现文章建议你需要以下部分或全部工具:

  • 知识图谱——连接语义搜索无法捕获的关键术语和概念
  • 关键词和实体提取工具——用于构建知识图谱
  • 图遍历算法——用于探索图中的连接
  • 属性图实现——用于丰富图结构和遍历方法
  • 图数据库(DBs)——用于存储和与图交互,以及高级图分析
  • 图查询语言(QLs)——用于对图节点和边进行复杂查询
  • 图节点嵌入算法——用于将图对象嵌入到可搜索的向量空间中
  • 向量存储——用于存储和搜索嵌入在语义向量空间中的文档

当然,可以说这些工具和实现中的每一个都可以对特定的图用例非常有帮助。但对于开始典型GraphRAG用例的任何开发者来说,一个简单的事实仍然存在:大多数"图"工具都是在生成式AI革命之前很久就设计和构建的。生成式AI用例与传统图用例根本不同,需要不同的方法,即使某些工具可以在两者之间共享 。

生成式AI用例与传统图应用的根本差异

图片

在生成式AI出现之前,就有了知识图谱和图数据库。这些图工具比生成式AI早了很多年,一些相关技术是为非常不同的用例设计的。这些技术主要针对结构化数据探索,而不是生成式AI擅长的非结构化文本处理和语义理解 。

从传统图用例到生成式AI的转变是数据处理技术的重大变化。传统图表在处理清晰、定义明确的关系方面表现出色,但它们往往缺乏生成式AI细致需求所需的灵活性 。

传统图工具是为庞大复杂的图而构建的

知识图谱通常是来自各种来源的大量数据的聚合,链接了广泛数据点范围内复杂且相互依赖的关系。大量的节点和边,加上它们连接的复杂性,可能使数据处理和分析任务在计算上密集且耗时 。

这就是为什么最初创建图数据库(图DBs)的原因。它们提供了优化的存储解决方案和处理能力,旨在高效管理节点和边的广泛网络。与图数据库一起,图查询语言(图QLs)被设计用来促进对这些大型图及其子图的复杂查询操作 。

传统图数据库和查询语言的一些典型用例包括:

  • 中心性分析——识别社交网络中最有影响力的人员。涉及诸如度中心性、介数中心性和特征向量中心性等中心性度量

  • 社区检测——将网络分割成社区或集群,其中成员内部连接比与网络其余部分连接更密集。涉及图聚类算法和边介数社区检测

  • 路径查找——找到两个节点之间的最短路径,以了解个体之间的分离度。涉及Dijkstra或A*(A星)等最短路径计算算法

当然,传统图工具设计并擅长的复杂图查询和图分析还有许多其他用例。但是,这里给出的例子以及许多其他例子,与我们今天在生成式AI应用中看到的图用例非常不同 。

GraphRAG和向量搜索都是局部操作

图片

之前我将"邻域探索"列为图在生成式AI用例中的一个应用,但从概念上讲,它可以被视为一个广泛的总体术语,在其下你可以找到生成式AI中几乎所有的图用例。换句话说,当我们在生成式AI中使用图时,我们几乎可以肯定只探索邻域——很少探索整个图或图的大部分。最多,我们探索相对于整个图来说相当小的子图 。

在图论中,“邻域"指的是图中与给定节点相邻的节点集合,由直接链接或边定义。因此,在知识图谱中检索节点的邻居应该产生一组与起始节点直接相关的项目或概念。类似地,在向量搜索中,标准实现返回语义向量空间中的"近似最近邻”(ANN),这意味着结果集中的文档是那些在语义意义上与查询最密切相关的文档 。

因此,向量搜索和从起始节点开始的几步图遍历都在寻找"最近邻",其中"最近"在这两种情况下有不同的含义。向量搜索找到最近的语义邻居,图遍历找到图邻居——如果集成得好,可以将在语义方式和各种非语义方式中相关的文档汇集在一起,这些方式仅受你如何构建知识图谱的限制 。

这里的重点是要注意,GraphRAG完全关注探索局部邻域,无论是图还是向量——就像RAG在纯向量方面一直如此。其含义是,我们的GraphRAG软件堆栈应该建立在擅长局部邻域搜索和检索的基础上,因为我们在生成式AI应用中的所有查询都专注于特定的知识领域,不需要对整个知识图谱进行全面探索或分析 。

按需选择图工具:只采用你需要的

图片

回到本文开头的图工具"清单",让我们仔细看看什么时候你可能想要将它们作为GraphRAG堆栈的一部分采用,或者不采用:

知识图谱

  • 何时采用——始终,以某种形式。知识图谱是GraphRAG的核心部分
  • 何时避免——永远不要,除非放弃GraphRAG转而使用纯RAG

实体和关键词提取工具

  • 何时采用——当直接从文本内容构建知识图谱时,自动提取可以高效地用相关实体和关键词填充你的图
  • 何时避免——如果你的数据不适合自动提取,或者当文档链接、手动策划或专门解析器等替代方法更适合你的数据和用例时

图遍历算法

  • 何时采用——始终。GraphRAG需要简单的图遍历算法,例如通常从起始节点进行深度1-3的简单遍历
  • 何时避免——虽然基本遍历是必要的,但除非你的用例特别需要高级图导航能力,否则要避免过于复杂的算法

属性图实现

  • 何时采用——当你的项目需要在边内对复杂关系和属性进行复杂建模,远超基本链接时
  • 何时避免——对于大多数标准GraphRAG实现,不需要关系建模中的这种复杂性。更简单的图模型通常就足够了

图数据库

  • 何时采用——当处理广泛、复杂的查询并需要执行超越标准系统能力的高级图分析和遍历时
  • 何时避免——如果你的GraphRAG系统不进行复杂、广泛的图特定操作。在这种情况下采用图数据库可能导致不必要的系统复杂性和资源分配

图查询语言(图QLs)

  • 何时采用——如果采用图数据库。当图数据的复杂查询对你的应用至关重要时,允许对相互连接的数据进行复杂的操作和检索
  • 何时避免——对于基本检索方法足够的较简单GraphRAG设置,结合图QL可能会使架构过于复杂

图节点嵌入算法

  • 何时采用——当你有图,并想将图节点转换为向量时。这是一个专门的用例,有优点和缺点
  • 何时避免——如果你的系统不需要将图节点作为向量搜索

向量存储

  • 何时采用——始终。必要的,因为它们作为存储和搜索对RAG系统至关重要的高维向量表示的基础
  • 何时避免——永远不要

最小GraphRAG系统的要求

考虑到上述关于图工具和技术的说明,这些是任何GraphRAG系统所需的核心组件:

1. 向量存储

对于任何RAG框架都是必需的,向量存储在GraphRAG中对于维护文档检索的可扩展性和效率更加重要。向量存储提供了在语义向量空间中存储和搜索嵌入文档的基础设施,这是RAG系统中检索过程的基础 。

2. 知识图谱

GraphRAG与纯RAG的定义概念,知识图谱链接语义向量搜索可能错过的关键术语和概念。该图对于扩展上下文和增强RAG系统可用的关系数据至关重要,因此证明了其在GraphRAG中的核心作用 。

3. 图遍历

需要简单的图遍历算法来导航知识图谱。这个组件不需要过于复杂,因为GraphRAG主要需要探索与查询直接相关的局部邻域或小子图,而不是深度或广泛的图导航 。

对于特殊用例,或者如果最小实现性能不够好,可以添加更多图工具和功能——下一节概述了一些重要考虑因素。

从向量开始,按需添加"图"——而不是相反

在处理生成式AI用例时,知识的基础在向量空间中。我们使用向量优化的工具如向量存储,因为它们直接使用LLM和其他生成式AI模型的语言——向量。我们的生成式AI应用实现应该以向量为先,因为最重要的向量操作(例如近似最近邻搜索)在时间和金钱上都很昂贵,所以我们应该为性能和效率优化这些操作 。

向生成式AI应用添加图应该就是这样:向你现有的向量优化基础设施添加图功能。从向量优化移动到图原生基础设施可能在某些特定用例中需要,但在绝大多数情况下,它会使技术堆栈复杂化并使部署更具挑战性 。

开始实现GraphRAG的简单方法

对于如何在不使用任何专门图工具的情况下进行GraphRAG的直接且说明性的示例,超越LangChain中的开源图向量存储实现,可以参考作者之前在《走向数据科学》上的文章。或者,要获得更广泛的入门视图,可以参考GraphRAG指南 。

图片

图5:印象派探索

图片

总结

GraphRAG并不需要复杂的图数据库、查询语言或分析工具。生成式AI用例与传统图分析根本不同,主要关注局部邻域探索而非全图分析。最有效的方法是以向量存储为基础,按需添加简单的图功能。这种方法既保持了系统的简洁性,又充分利用了GraphRAG的优势,避免了不必要的复杂性和维护开销。

记住:简单往往更好,尤其在快速发展的AI领域中。选择合适的工具而不是最复杂的工具,是成功构建GraphRAG系统的关键。

最后

为什么要学AI大模型

当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!

DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

img

但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。

AI大模型入门到实战的视频教程+项目包

看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径

在这里插入图片描述
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

海量AI大模型必读的经典书籍(PDF)

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
在这里插入图片描述

600+AI大模型报告(实时更新)

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

AI大模型面试真题+答案解析

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值