RAG再登ACL!微软GraphRAG「知识图谱索引」+人大RichRAG「子意图拆解」:效率起飞

部署运行你感兴趣的模型镜像

近年来,检索增强生成(RAG)技术通过融合外部知识库与大语言模型(LLM),有效缓解了幻觉问题和静态知识瓶颈,成为AI领域的热门方向。然而,传统RAG在应对全局语义理解多面用户意图时仍显乏力:一方面,针对“数据集核心趋势是什么?”等全局性问题,局部检索易陷入碎片化答案;另一方面,用户提出的开放式多面查询(如“说唱文化的特点与发展”)往往只能获得浅层回答,缺乏深度与广度。

近期两项突破性研究为这一困境提供了全新思路——微软团队的GraphRAG中国人民大学联合发布的RichRAG,分别从“空间扩展”与“意图拆解”两个维度重构RAG技术框架。当前,RAG技术已进入“精准化”与“人性化”并行的新阶段。本文精选两篇顶会论文,详解其核心算法与实验设计(附开源代码),涵盖知识图谱构建、社区摘要生成、子意图发现、LLM偏好对齐等关键技术模块。无论是希望突破局部检索局限,还是攻克多面查询难题,这些方案都将为研究者提供可直接复用的创新范式。下方已经附上获取完整论文解读与代码实现。

我这边也已经帮同学们整理好了8篇RAG方向上的一些前沿文章,不想多花时间找资料的可以直接拿,也欢迎大家分享本文给好友同学~

点击【AI十八式】的主页,获取更多优质资源!

【论文1】From Local to Global: A Graph RAG Approach to Query-Focused Summarization

这篇文献提出了一种名为 GraphRAG 的方法,用于在大规模文本语料库上进行基于检索增强生成(RAG)的问答任务。GraphRAG 的核心思想是通过构建知识图谱和社区检测,实现对整个文本语料库的全局理解。以下是 GraphRAG 的研究方法和创新点的简单介绍:

研究方法

  1. 知识图谱构建:从源文档中提取实体和关系,构建一个知识图谱,其中节点表示实体,边表示关系。

  2. 社区检测:使用社区检测算法(如 Leiden 算法)将知识图谱划分为多个层次化的社区,每个社区包含一组高度相关的实体。

  3. 分层社区总结:对每个社区生成总结报告,通过递归聚合低层社区的总结,生成更高层次的社区总结。

  4. 全局问答:利用社区总结生成部分答案,并通过汇总这些部分答案生成最终的全局答案。

  5. 自适应基准测试:使用大型语言模型(LLM)生成需要全局理解的问题,并设计了四个评估指标(全面性、多样性、赋能性和直接性)来评估生成答案的质量。

创新点

  1. 基于知识图谱的全局问答:通过构建知识图谱和分层社区结构,实现了对大规模文本语料库的全局理解。

  2. 分层社区总结:通过递归聚合低层社区的总结,生成更高层次的社区总结,显著提高了总结的全面性和多样性,同时减少了所需的上下文 token 数量。

  3. 自适应基准测试:提出了一种基于 LLM 的自适应基准测试方法,能够更公平地评估全局问答系统的性能。

  4. 高效的上下文使用:通过社区总结生成答案,显著减少了所需的上下文 token 数量,从而提高了系统的效率。

GraphRAG 在处理全局性问答任务时表现出色,为大规模文本数据的全局问答提供了一种新的解决方案。

论文链接:https://arxiv.org/abs/2404.16130

代码链接:https://paperswithcode.com/paper/from-local-to-global-a-graph-rag-approach-to

【论文2】RichRAG: Crafting Rich Responses for Multi-faceted Queries in Retrieval-Augmented Generation

方法介绍

RichRAG采用检索增强生成(RAG)技术,通过三个核心组件处理多方面查询:

  1. 子方面探索器:利用大型语言模型(LLM)识别查询的潜在子方面,为后续处理提供明确方向。

  2. 多方面检索器:根据子方面检索相关文档,构建全面的候选文档池。

  3. 生成式列表排名器:从候选池中选出最相关文档,生成全局最优排名列表供生成器使用。排名器基于编码器-解码器结构,通过监督微调和强化学习优化,确保输出与生成器偏好一致。

创新点

  1. 显式建模子方面:首次显式建模查询子方面,捕捉用户潜在多意图,生成覆盖多个子意图的丰富回答。

  2. 生成式列表排名器:基于生成模型的排名器直接生成全局最优文档排名列表,有效避免局部最优解,提升排名效率。

  3. 强化学习优化与US3方法:引入强化学习阶段,使用直接偏好优化(DPO)算法和US3方法构建高质量训练样本,提高优化稳定性和效果。

  4. 重复约束释放:允许排名列表中包含重复文档以强调重要信息,增强生成器对关键知识的信心,提升回答可靠性。

论文链接:https://arxiv.org/abs/2406.12566

点击【AI十八式】的主页,获取更多优质资源!

您可能感兴趣的与本文相关的镜像

Qwen3-VL-8B

Qwen3-VL-8B

图文对话
Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型,这一代在各个方面都进行了全面升级:更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值