RAGFlow 0.9 版本发布,正式引入了对 GraphRAG 的支持。GraphRAG 由微软近期开源【参考文献1】,被称作下一代 RAG,并且在更早时间发表了相关论文【参考文献2】。关于下一代 RAG,在 RAGFlow 体系的定义更加完整,就是如下图所示的 RAG 2.0, 这是一个以搜索为中心的端到端的优化系统,分为 4 个阶段,除了后边 2 个阶段——索引与检索,这个大部分是需要一个专用数据库来提供服务,前边 2 个阶段的分工如下:
-
数据抽取:利用各类文档(大)模型保证被索引数据的高质量输入,避免 Garbage In,Garbage Out。
-
在抽取的数据被送到数据库之前,还可以选择性地加入一些预处理步骤,包括文档预聚类,知识图谱构建等,这些预处理,主要是解决针对多跳问答,跨文档提问等情况做出处理。因此,GraphRAG 确实是面向下一代 RAG 的方案,但站在 RAG 2.0 的角度,它则是整个 Pipeline 当中的一个单元。

从 0.9 版本开始,这个单元已经被补充到了 RAGFlow 当中。那么下边先来介绍下,为何要加入这样一个单元,它跟微软的 GraphRAG 有什么区别和联系。
知识图谱对于改进 RAG 的效果至关重要,因为简单的 RAG ,只能提供根据提问检索答案的功能,可是这只能找到跟提问相似的结果,而未必是答案。例如一些总结性的问题,这种场景本质上是一种聚焦于查询的总结 QFS(Query Focused Summarization),采用知识图谱可以很方便的解决这类问题,通过知识图谱按照文字相关性把内容聚合,在对话的时候按照这些聚合后的文字生成总结,就可以很好的回答问题。目前的很多专用 AI 搜索,就是这样工作的。RAGFlow 在过去的版本所提供的 RAPTOR,就是对文本做聚类,其实也是类似的原理,只不过相比 RAPTOR, 以知识图谱为中心的工作,

最低0.47元/天 解锁文章
1896

被折叠的 条评论
为什么被折叠?



