RAG新SOTA！港中深发布Graph-based RAG统一框架，深度评估现有Graph-based RAG框架！

大模型.

于 2025-03-17 10:39:10 发布

阅读量673

点赞数 22

文章标签：人工智能数据分析深度学习架构数据挖掘大模型

本文链接：https://blog.youkuaiyun.com/EnjoyEDU/article/details/146309174

版权

研究背景

大型语言模型（LLM）虽具备强大的理解和生成能力，但缺乏外部知识可能导致"幻觉"问题。基于图的检索增强生成（Graph-based RAG）通过将图结构中的外部知识集成至 LLM，有效提升模型的事实准确性、适应性、可解释性与可信度。然而，目前各种基于图的 RAG 方法缺乏统一框架，难以在相同实验环境下系统比较和深入分析。

请添加图片描述

研究贡献

1、创新统一框架： 首次提出涵盖所有现有 Graph-based RAG 方法的统一框架，从高层次明确定义图构建、索引构建、操作符配置及检索生成四个关键步骤。

2、深入方法比较：在统一框架下，系统地评估和对比 12 种主流 Graph-based RAG 算法，详细分析每种方法的优势与局限性。

3、模块化操作符设计：创造性地设计了 19 种不同检索操作符，可根据具体任务需求自由组合与调整，快速实现并测试新算法。

4、超强实验验证：在 11 个真实问答数据集上，广泛开展实验验证，明确指出各方法在不同情境下的适用性与性能表现。

5、新算法与新见解：结合现有技术提出两种全新的 Graph-based RAG 变体算法（VGraphRAG 与 CheapRAG），在特定问题和抽象问题任务上均超越当前最佳表现（SOTA）。

6、前瞻性研究方向：基于详细的实验结果与分析，提出了多种前瞻性研究机会与实践方案，有望推动 RAG 领域未来研究。

研究与实验方法

本文提出一个全新的统一框架，将基于图的 RAG 方法划分为图构建、索引构建、操作符配置及检索与生成四个核心阶段，以实现对现有方法的系统比较与深入分析。

1、在图构建阶段，首先将大规模语料库划分为多个块，然后利用 LLM 等工具提取节点和边构建图，包括 Passage Graph、树、知识图谱、文本知识图谱和丰富知识图谱五种类型。

2、索引构建阶段主要构建节点、关系和社区三类索引，以支持高效在线检索。所有节点和关系索引均利用先进文本编码模型 BGE-M3 生成嵌入向量，社区索引则通过聚类算法生成社区报告。

请添加图片描述
3、操作符配置阶段设计了 19 种不同的算子，涵盖节点、关系、块、子图和社区等类别，可以根据任务需求灵活组合，迅速实现算法变种。

4、检索与生成阶段，首先将用户输入的问题转化为检索原语，通过配置好的操作符从图中检索信息，再与问题一同输入 LLM 生成答案。

请添加图片描述
5、实验采用 11 个真实数据集，包括特定与抽象问题任务。针对特定问题采用准确率与召回率进行评估，针对抽象问题则采用全面性、多样性、赋能性和总体质量四个维度进行 LLM 评估。

实验结果亮点

VGraphRAG算法在复杂问题任务上，如 ALCE 数据集，显著提高准确率，STRREC、STREM 与 STRHIT 指标分别提升 8.47%、13.18%、4.93%。

CheapRAG 在抽象问题任务的 Multihop Sum 数据集上令牌成本降低 100 倍以上，且提升答案质量，具备明显的成本效益优势。

请添加图片描述

未来展望

该研究不仅为当前 Graph-based RAG 方法提供了统一的理解与评估平台，也为未来的创新与实践开辟了新的路径。研究人员相信，通过更深入地理解现有方法的行为与效果，能为未来提供宝贵见解与方向。

请添加图片描述

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】