收藏级GraphRAG宝典:手把手拆解微软开源黑科技,知识图谱增强生成一篇通!

一、处理流程图

二、数据处理流程

  1. 将文档内容进行分块

    a. chunk 策略:滑动窗口的策略

  2. 每个分块送入 LLM 进行解析,得到三元组

    a. LLM 将首先被提示提取文本中的实体,为实体生成简洁的描述性文本

    b. 根据当前文本块中的实体,LLM 被提示从文本中提取这些实体之间的关系,同样生成简介的描述性文本

  3. 将三元组导入到 Neo4j

2.1LLM生成 entity

input:

"In the latest study, we explored the potential of using machine learning algorithms for disease prediction. We used support vector machines (SVM) and random forest algorithms to analyze medical data. The results showed that these models performed well in predicting disease risk through feature selection and cross-validation. In particular, the random forest model showed better performance in dealing with overfitting problems. In addition, we discussed the application of deep learning in medical image analysis."

output:

<concept>

2.2 LLM 生成三元组

input:

[

output:

  1. Subject: The first entity from the given entities.

  2. Predicate: The action or relationship linking the subject to the object.

  3. Object: The second entity from the given entities.

<triplet>

2.3 LLM 实体消歧

input:

[

output:

<transformation>

2.4 导入Neo4j

导入语句

query = (

三、社区聚类 2.1 社区聚类

社区检测算法有很多种:选择使用分层的 Leiden 社区检测算法,以递归方式构建社区层级结构

  1. 首先在全图中识别出初始社区

  2. 然后在每个社区内继续执行子社区检测,直到无法进一步划分为止,形成叶级社区。

使用 Neo4j 的 GDS 库提供的分层Leiden算法包对提取出的知识图谱进行社区检测,得到包含节点和关系的社区信息。

摘要的生成采用模板方法,逐步将图中节点、边及其声明的摘要填充到社区摘要模板中。较低层级的社区摘要将作为上层社区摘要生成的基础。具体步骤如下:

  1. 对于叶级社区,从图中提取的节点和边的摘要被按优先级排序加入到 LLM 上下文窗口中。排序标准是:依据边的源节点和目标节点的整体度量(即显著性)降序排列。依次添加源节点描述、目标节点描述、边的描述。

  2. 对于高级社区,若所有元素摘要在上下文窗口的 token 限制内可容纳,则按叶级社区的方法汇总所有元素摘要;否则,将子社区按摘要的 token 数量降序排序,逐步用更短的子社区摘要替换较长的元素摘要,直到整体摘要符合上下文窗口限制。

3.2 社区检测算法

分层 Leiden 算法流程主要包括以下三个阶段:

(1) 节点聚合:在固定社区划分的前提下,尝试将每个节点移动到邻居节点所属社区,以提升总体模块度。

(2) 社区细化:对每个社区进行局部划分,确保每个社区子图中的所有节点之间是连通的,防止出现不连通的社区。

(3) 图聚合:构建新的超图,将每个社区作为一个超级节点,重复第一步,形成递归的社区层级结构。

模块化用于衡量当前社区划分相较于随机划分的“好坏”,定义如下:

完成社区检测后,我们会为每个节点增加它们所属的社区属性,很明显,同一个节点有可能属于不同社区,所以这里的 communityIds 实际上是一个列表。

3.3 LLM 生成 社区摘要

根据社区内节点的内容生成该社区的摘要,反馈这个社区内的核心内容,这一步相当易懂,我们只需要使用 LLM 读取社区内节点与关系的描述,最后总结即可

本文在处理摘要时使用了比较直接的思路,即每个社区的信息都导入 LLM 让其生成摘要。

生成社区摘要:更优的做法是我们在撰写社区摘要时,需要从下往上生成,因为过大的社区可能造成超过 LLM 的 token 限制,而从下而上的处理方式使得我们可以跳过一些已经生成过摘要的子社区,直接将子社区的摘要作为一部分节点的描述,从而最大程度减小 token 消耗。

我们读取每个社区内节点与边的描述,然后将他们整理之后导入 LLM 中,让其生成社区摘要,

社区摘要内容主要包括:

  1. 社区名称
  2. 社区总结
  3. 社区内需要关注的要点信息
- TITLE: community's name that represents its key entities - title should be short but specific. When possible, include representative named entities in the title.

input:

Entities:

output:

{

四、检索算法

4.1 局部查询算法

主要用于回答那些聚焦于单一或少数几个实体的问题,比如“孙悟空的生平”或“矢车菊的治疗特性”。这种方法通过一系列步骤,从知识图谱和原始语料中提取与查询密切相关的信息,以构建精准的上下文,并最终生成高质量的回答。

查询步骤:

  1. **生成queryembedding:**将用户query转化为向量
  2. **按向量相似度查询:**计算知识图谱中实体节点向量与query向量的相似度,筛选出相似度超过阈值的相关实体
  3. **提取实体及内容片段:**系统提取这些实体的邻居节点和边,在原始文本中查找相关内容片段
  4. **生成局部上下文:**将相关实体、邻居节点和文本片段组合成局部上下文窗口,对外输出,给到LLM,用于回答用户 query

4.2 全局查询算法

全局查询方法适用于更复杂的问题,尤其是那些需要跨越多个知识图谱社区、结构性较强的查询,比如“曹操与大乔之间的联系”。这种类型的问题通常难以通过关注单一实体来解决,因此需要更宏观的视角和层级化的信息整合。

查询步骤:

  1. **生成queryembedding:**将用户query转换为一个 embedding向量
  2. **按向量相似度查询:**将embedding向量与所有社区摘要的embedding向量进行比较,筛选出与查询最相关的一组社区。这一筛选基于相似度阈值,确保只保留与查询密切相关的区域。
  3. **社区摘要生成chunk:**系统会把2中社区摘要,进一步切分成较小的chunk文本块,
  4. **相关性计算:**通过 LLM 对3中chunk做处理(别出若干关键信息点,并为每个信息点打分,以反映其对回答问题的贡献度)
  5. **相关性过滤:**系统会根据评分,从所有中间响应中挑选出最重要的若干信息点,组成一个高质量的全局上下文。这些信息点跨越不同的社区,构成了一个面向复杂查询的知识核心。
  6. **生成全部上下文:**将 5 中上下文连和原始query一起被输入到LLM中,生成最终的答案

若干关键信息点,并为每个信息点打分,以反映其对回答问题的贡献度)
5. **相关性过滤:**系统会根据评分,从所有中间响应中挑选出最重要的若干信息点,组成一个高质量的全局上下文。这些信息点跨越不同的社区,构成了一个面向复杂查询的知识核心。
6. **生成全部上下文:**将 5 中上下文连和原始query一起被输入到LLM中,生成最终的答案

如何学习大模型 AI ?

我国在AI大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着Al技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国Al产业的创新步伐。加强人才培养,优化教育体系,国际合作并进,是破解困局、推动AI发展的关键。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

2025最新大模型学习路线

明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。

对于从来没有接触过AI大模型的同学,我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

在这里插入图片描述

针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。

大模型经典PDF书籍

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路!

在这里插入图片描述

配套大模型项目实战

所有视频教程所涉及的实战项目和项目源码等
在这里插入图片描述

博主介绍+AI项目案例集锦

MoPaaS专注于Al技术能力建设与应用场景开发,与智学优课联合孵化,培养适合未来发展需求的技术性人才和应用型领袖。

在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

在这里插入图片描述

为什么要学习大模型?

2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

在这里插入图片描述

适合人群

  • 在校学生:包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础,有志于深入AGI大模型行业,希望开展相关的研究和开发工作。
  • IT行业从业人员:包括在职或失业者,涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验,至少1年以上的编程工作经验,对大模型技术感兴趣或有业务需求,希望通过课程提升自身在IT领域的竞争力。
  • IT管理及技术研究领域人员:包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势,主导技术创新,推动大模型技术在企业业务中的应用与改造。
  • 传统AI从业人员:包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作,现需要快速补充大模型技术能力,获得大模型训练微调的实操技能,以适应新的技术发展趋势。
    在这里插入图片描述

课程精彩瞬间

大模型核心原理与Prompt:掌握大语言模型的核心知识,了解行业应用与趋势;熟练Python编程,提升提示工程技能,为Al应用开发打下坚实基础。

在这里插入图片描述

RAG应用开发工程:掌握RAG应用开发全流程,理解前沿技术,提升商业化分析与优化能力,通过实战项目加深理解与应用。 在这里插入图片描述

Agent应用架构进阶实践:掌握大模型Agent技术的核心原理与实践应用,能够独立完成Agent系统的设计与开发,提升多智能体协同与复杂任务处理的能力,为AI产品的创新与优化提供有力支持。
在这里插入图片描述

模型微调与私有化大模型:掌握大模型微调与私有化部署技能,提升模型优化与部署能力,为大模型项目落地打下坚实基础。 在这里插入图片描述

顶尖师资,深耕AI大模型前沿技术

实战专家亲授,让你少走弯路
在这里插入图片描述

一对一学习规划,职业生涯指导

  • 真实商业项目实训
  • 大厂绿色直通车

人才库优秀学员参与真实商业项目实训

以商业交付标准作为学习标准,具备真实大模型项目实践操作经验可写入简历,支持项目背调

在这里插入图片描述
大厂绿色直通车,冲击行业高薪岗位
在这里插入图片描述

文中涉及到的完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值