自然语言处理:第七十八章 RAG框架总结主流框架推荐

本人项目地址大全:Victor94-king/NLP__ManVictor: 优快云 of ManVictor


写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!

写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!

写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!


设想你正致力于构建一个智能问答系统,该系统旨在从庞大的知识库中迅速而精确地提取关键信息,并据此生成自然流畅的回答。然而,随着数据规模的不断扩大,系统面临着严峻的挑战:检索效率逐渐下滑,生成内容的质量亦趋于下降。这正是当前众多检索增强型生成(RAG)系统亟需解决的核心问题——如何在数据冗余、检索效率低下以及生成内容不相关之间找到一个最佳的平衡点。

RAG 的发展瓶颈:
传统 RAG 系统通过检索模型提取最相关的文档,再交给生成模型处理。但这种流水线式的设计存在两个主要问题:

  1. 检索不够精确:简单的相似性检索模型容易漏掉重要信息或引入噪声数据。
  2. 生成效率低下:无关或低质量的上下文增加了生成负担,降低了回答的质量和速度。
  3. GraphRAG 框架 介绍

GraphRAG 框架在微软公司内部广受赞誉,并以此为契机,衍生出了一系列轻量级的优化版本,诸如 LightRAG 与 nano-GraphRAG 等。与此同时,还涌现出了一些别具一格的变体,如 KAG 框架。这些框架的核心改进之处在于,它们在传统 RAG 框架的基础上,进一步强化了实体、社区以及文本切块(Chunking)之间的内在联系,并且巧妙地将现有知识图谱(KG)中的知识融入其中。这一系列的改进措施,显著提升了信息检索的召回率与准确性,为用户带来了更为优质的信息检索体验。

图片

1.0 GraphRAG 微软

  • github:https://github.com/microsoft/graphrag
  • 论文:From Local to Global: A Graph RAG Approach to Query-Focused Summarization https://arxiv.org/pdf/2404.16130
  • 项目文档:microsoft.github.io/graphrag/

最近微软团队开源了一款数据工作流与转换工具是一种结合了检索增强生成(RAG)技术和知识图谱的先进框架。它旨在通过利用外部结构化知识图谱来增强大型语言模型(LLMs)的性能,有效解决模型可能出现的 “幻觉” 问题、领域知识缺失以及信息过时等问题。GraphRAG 的核心目的在于从数据库中检索最相关的知识,以增强下游任务的答案质量,提供更准确和丰富的生成结果。

  • GraphRAG 工作原理

  • 索引建立阶段:在 GraphRAG 的索引建立阶段,主要目标是从提供的文档集合中提取出知识图谱,并构建索引以支持后续的快速检索。这一阶段是 GraphRAG 工作流程的基础,其效率和准确性直接影响到后续检索和生成的质量。

    1. 文本块拆分:首先,原始文档被拆分成多个文本块,这些文本块是 GraphRAG 处理的基本单元。根据微软的研究,每个文本块的大小和重叠度可以调整,以平衡处理速度和输出质量。
    2. 实体与关系提取:利用大型语言模型(LLM),对每个文本块进行分析,提取出实体和关系。这一步骤是构建知识图谱的关键,涉及到命名实体识别(NER)和关系抽取(RE)技术。
    3. 生成实体与关系摘要:为提取的实体与关系生成简单的描述性信息,这些信息将作为图节点的属性存储,有助于后续的检索和生成过程。
    4. 社区检测:通过社区检测算法,如 Leiden 算法,识别图中的多个社区。这些社区代表了围绕特定主题的一组紧密相关的实体和关系。
    5. 生成社区摘要:利用 LLM 为每个社区生成摘要信息,这些摘要提供了对数据集全局主题结构和语义的高层次理解,是回答高层次查询问题的关键。

图片

  • 查询处理阶段

查询处理阶段是 GraphRAG 工作流程的最终环节,它决定了如何利用已建立的索引来回答用户的查询。

  • 本地搜索(Local Search):针对特定实体的查询,GraphRAG 通过扩展到相关实体的邻居和相关概念来推理,结合结构化数据和非结构化数据,构建用于增强生成的上下文。
  • 全局搜索(Global Search):对于需要跨整个数据集整合信息的复杂查询,GraphRAG 采用 Map-Reduce 架构。首先,利用社区摘要独立并行地回答查询,然后将所有相关的部分答案汇总生成全局性的答案。

在查询处理阶段,GraphRAG 展示了其在处理复杂查询任务上的优势,尤其是在需要全局理解和高层语义分析的场景中。通过结合知识图谱的结构化信息和原始文档的非结构化数据,GraphRAG 能够提供更准确、更全面的答案。

  • 针对新闻文章数据集的示例问题,Graph RAG(C2)和基础 RAG 的表现
    图片

1.1 LightRAG 香港大学

  • 论文:LightRAG: Simple and Fast Retrieval-Augmented Generation https://arxiv.org/abs/2410.05779v1
  • Github 地址:https://github.com/HKUDS/LightRAG

LightRAG 在信息之间保持关系,能产生更优质的答案,同时其计算效率也更高。与之前的 RAG 模型相比,LightRAG 引入了多项创新功能:

  • 图增强文本索引:通过将图结构纳入文本索引,LightRAG 能够建立相关实体之间的复杂关系,从而提升系统的上下文理解能力。
  • 双层检索系统:LightRAG 采用双层检索机制,能够同时处理低层(具体细节)
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

曼城周杰伦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值