引言:
在GraphRAG之后,微软再次推出全新框架PIKE-RAG,专注于复杂企业场景中私域知识的提取、推理与应用。该技术已在工业制造、采矿、制药等多个领域完成测试,结果显示其显著提升了问答系统的准确性和实用性,为行业知识管理带来了突破性进展。
RAG系统在满足现实世界应用的复杂和多样化需求方面仍然面临挑战。仅依靠直接检索不足以从专业语料库中提取深度领域特定知识并进行逻辑推理是不够的。
传统 RAG 方法存在以下几个问题:
- 知识来源复杂:现实中的数据不仅仅是纯文本,还包括表格、图表、图片等多种格式。单一的文本检索难以捕捉这些多样信息。
- 专业领域知识不足:工业应用中的专业知识具有特定术语和逻辑,普通模型难以准确提取和理解,从而导致回答不够严谨。
- “一刀切” 的策略:不同类型的问题(如简单事实问答与需要多步推理的复杂问题)要求不同的处理策略,而传统方法往往采用统一流程,无法兼顾所有需求
PIKE-RAG 的创新之处
为了解决上述不足,微软亚洲研究院提出了 PIKE-RAG —— 一种专注于 “知识” 和 “推理” 增强的生成框架。PIKE-RAG 不仅帮助模型检索相关知识,更注重如何理解、拆解和合理组织这些信息,从而构建出严谨的推理链。
多层次异构的知识库构建与检索+自我进化的领域知识学习
PIKE-RAG框架主要由几个基本模块组成,包括文档解析、知识抽取、知识存储、知识检索、知识组织、以知识为中心的推理以及任务分解与协调。通过调整主模块内的子模块,可以实现侧重不同能力的RAG系统,以满足现实场景的多样化需求。
下面我们来看看它的核心设计:
1. 分级任务设计
论文将问题大致分为四类:
- 事实型问题:例如 “这款 LED 产品的额定电流是多少?”
- 链式推理问题:需要跨多个信息点进行关联,比如比较多个产品的性能。
- 预测型问题:例如 “未来 5 年半导体技术可能有哪些突破?”
- 创造型问题:要求模型发挥创造力,提出新见解。
这种分类使得系统能根据问题的难度和性质,采用针对性的处理策略,从而 “量体裁衣” 地提升答案的准确性和逻辑性。
企业场景复杂多样的Query
2. 知识 “原子化” 与任务分解
- 知识原子化:面对复杂问题,系统会将长文档或复杂数据拆分成最基本的信息单元(知识原子)。这种拆分类似于把大问题拆成小问题,每个小单元便于独立检索和理解。
- 知识感知的任务分解:系统根据问题需求,动态分解任务,并利用已提取的知识原子构建逻辑推理链。这样一来,即使是多步推理的问题,系统也能循序渐进地 “拼凑” 出最终答案。
- 任务分解器训练:为实现高效分解,系统还引入了可训练的任务分解模块,通过大量领域数据学习如何将问题正确拆解并合理组合各个知识点。
3. 分阶段系统构建
PIKE-RAG 采用了分阶段的开发策略,逐步提升系统的处理能力:
- 初级阶段:专注于构建一个多模态知识库。系统会从文本、表格、图像等多种格式中抽取信息,并利用解析算法将它们统一组织成一个结构化、关联紧密的知识网络。
- 中级阶段:在事实型问题上引入多粒度检索技术,结合增强型文本切分和自动标记机制,确保能精确提取出关键信息。
- 高级阶段:逐步引入链式推理模块、知识原子化处理和任务分解器,使系统不仅能够检索信息,更能在多跳推理、预测和创造性回答等复杂任务中表现优异。
实现原理:如何让系统 “知晓” 与 “推理”
在 PIKE-RAG 系统中,设计者采用了层次化、分阶段的实现策略,确保系统能逐步提升对复杂问题的处理能力。下面详细介绍各个主要环节的实现原理:
1. 知识库构建(Level-0)
- 文件解析:系统首先从各种格式的数据中抽取信息,将非结构化数据(如扫描文档、表格、图片中的文字)经过专门算法转换为统一的文本数据。
- 知识组织:解析后的信息被组织成一个多层次的异构图,各类数据节点(例如产品技术规格、图表、说明文字等)通过超链接、引用关系等方式互相连接,形成结构化的知识库,便于后续的高效检索和利用。
2. 专门模块针对不同问题
-
事实型问题模块(Level-1):
- 增强型切分与自动标记:长文档被切分成更小的信息块,并自动为每个信息块打上标签,以便在检索时更精确地匹配查询内容。
- 多粒度检索:系统在检索时不仅搜索全文,还能在不同层级和粒度上查找相关信息,提高检索的准确性。
-
链式推理问题模块(Level-2):
- 知识原子化:将大块复杂知识拆解成最小的基本单元,使得每个单元都能独立检索并参与推理。
- 任务分解:针对复杂问题,系统动态分解成多个子任务,每个子任务依次解决后再组合成最终答案。
- 训练可调的任务分解器:通过大量领域数据训练,系统学会如何针对不同专业问题设计合适的分解策略和推理流程。
-
预测型与创造型问题模块(Level-3 & Level-4):
- 在高级阶段,系统不仅能处理已知信息,还能在已有数据基础上推演预测未来趋势或提出创造性观点,从而满足更高层次的应用需求。
首次提出了5级RAG系统能力与挑战,针对不同系统层级的技术挑战,PIKE-RAG框架都有针对性策略。以下缩写被使用:“PA”代表文件解析,“KE”代表知识抽取,“RT”代表知识检索,“KO”代表知识组织,“KR”代表以知识为中心的推理。
大家可以去尝试一下,
https://arxiv.org/abs/2501.11551
https://github.com/microsoft/PIKE-RAG