GPT-4+GraphRAG:知识图谱如何让RAG系统更智能?

我经常在网上看到关于GraphRAG的帖子,但直到大约一个月前,我才决定尝试一下。在花了一些时间进行实验后,我可以说它的表现令人印象深刻,但如果你使用的是OpenAI API,成本也相当高。在文档中运行他们提供的示例书籍测试花费了我大约7美元,所以虽然它的性能和组织能力非常出色,但它并不算经济实惠。

如果你是RAG系统的新手,我建议先阅读一些入门文章:

1、Anthropic 的新 RAG 方法(https://pub.towardsai.net/anthropics-new-rag-approach-e0c24a68893b)

2、RAG 从头开始(https://pub.towardsai.net/rag-from-scratch-66c5eff02482)

无论如何,这里是传统RAG系统的工作原理概述:

图片

对于已经熟悉RAG的人来说,你可能遇到过和我一样的头疼问题:

  • • 文本块之间的上下文容易丢失
  • • 随着文档集合的增长,性能急剧下降
  • • 集成外部知识就像蒙着眼睛解魔方一样困难(比喻意指操作复杂且缺乏清晰方向)

GraphRAG的工作原理

图片

GraphRAG是传统RAG的增强版本,主要分为两个阶段:

索引阶段

  • • 从源文档开始,将其拆分为更小的子文档(与传统RAG类似)
  • • 执行两个并行的提取过程:
  1. \1. 实体提取:识别出诸如人物、地点、公司等实体
  2. \2. 关系提取:发现跨不同文本块的实体之间的联系
  • • 创建一个知识图谱,其中节点代表实体,边代表它们之间的关系
  • • 通过识别紧密相关的实体来建立社区
  • • 在不同的社区层级生成分层摘要(共三级)
  • • 使用归约-映射方法,通过逐步合并文本块生成整体摘要

查询阶段

  • • 接收用户的查询
  • • 根据所需的细节选择适当的社区层级
  • • 在社区层级(而不是传统RAG的文本块层级)上执行检索
  • • 检查社区摘要以生成局部响应
  • • 将多个相关社区的局部响应组合成最终的综合答案

GraphRAG的核心创新在于它将信息结构化为图形格式,并利用社区检测来生成更具上下文意识的响应。然而,传统RAG系统仍然有其用武之地,特别是在考虑运行GraphRAG的计算成本时

设置GraphRAG

⚠️ 提醒:这个实验运行在GPT-4 API上,成本较高。我的一次测试成本约为7美元(基于GPT-4模型)。

如果你更喜欢在本地LLM上使用ollama进行测试,请查看这个视频:

接下来让我们一步步完成设置过程:

环境设置

首先,创建一个虚拟环境:

conda create -n GraphRAG
conda activate GraphRAG

安装GraphRAG包:

pip install graphrag

目录结构

GraphRAG需要特定的目录结构以实现最佳运行效果:
- 创建一个工作目录
- 在其中创建_ragtest/input_文件夹结构
- 将源文档放入input文件夹中

在本文中,我们将使用提供的书籍作为示例。通过以下命令下载到input文件夹中:

curl https://www.gutenberg.org/cache/epub/24022/pg24022.txt > ./ragtest/input/book.txt

配置

使用以下命令初始化工作区:

python -m graphrag.index --init --root ./target

此操作会创建必要的配置文件,包括settings.yml,你需要在其中:
- 设置你的OpenAI API密钥
- 配置模型设置(默认使用GPT-4进行处理和OpenAI嵌入)
- 根据需要调整文本块大小(默认:300个token)和重叠部分(默认:100个token)

构建知识图谱

运行索引过程:

python -m graphrag.index --init --root ./target

查询你的图谱

GraphRAG提供了两种主要的查询方式:

全局查询

python -m graphrag.query --root ./target --method global "what are the top themes in this story"

适用于关于主题和整体内容理解的广泛问题。

局部查询

python -m graphrag.query --root ./target --method local "what are the top themes in this story"

适用于关于文档内实体或关系的具体问题。

成本因素:值得吗?

让我们谈谈数字。在我用示例书籍进行测试时,GraphRAG调用了:

  • • ~570次GPT-4 API请求
  • • 大约25次嵌入请求
  • • 处理了超过100万个token

总成本:每本书大约7美元。

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

下面这些都是我当初辛苦整理和花钱购买的资料,现在我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值