摘要
我们提出了AutoSchemaKG,一个完全自主的知识图谱构建框架,无需预定义模式。我们的系统利用大型语言模型同时提取知识三元组和直接从文本中归纳全面的模式,对实体和事件进行建模,并在使用概念化将实例组织成语义类别的同时进行建模。处理超过5000万份文档后,我们构建了ATLAS(自动化三元链接和模式归纳),一系列拥有9亿多个节点和59亿多条边的知识图谱。这种方法在多跳问答任务上优于最先进的基线,并增强了大型语言模型的事实验实性。值得注意的是,我们的模式归纳实现了与人工制定的模式95%的语义对齐,且零手动干预,展示了其强大的能力。利用动态诱导的模式处理十亿级知识图谱可以有效地补充大型语言模型中的参数化知识。
核心速览
研究背景
-
研究问题
:这篇文章要解决的问题是如何在没有预定义模式的情况下,通过动态模式推断从大规模语料库中自动构建知识图谱。
-
研究难点
:该问题的研究难点包括:依赖领域专家预定义的模式限制了知识图谱的可扩展性、适应性和领域覆盖范围;传统方法需要大量的人工干预,效率低下。
-
相关工作
:该问题的研究相关工作包括SAC-KG、Docs2KG和KAG等,这些工作分别利用大型语言模型生成高质量的知识图谱、处理异构文档以及通过知识图谱文本互索引增强多跳推理能力。
研究方法
这篇论文提出了AutoSchemaKG框架,用于解决知识图谱自动构建的问题。具体来说,
-
三元组提取:首先,使用大型语言模型从Dolma语料库中提取知识三元组。该过程分为三个阶段:实体-实体关系提取、实体-事件关系提取和事件-事件关系提取。每个阶段使用不同的提示(prompt)来指导大型语言模型生成结构化输出。
-
模式推断:其次,进行模式推断,将特定的实体、事件和关系抽象为广义类型。该过程利用大型语言模型生成代表每个图元素类型或相关概念的概念短语。为了提高准确性,结合上下文信息对实体进行抽象。
-
统一三元组提取:此外,开发了一个实体-事件-概念提取框架,不仅捕捉传统的实体关系,还捕捉复杂的事件结构及其概念分类,创建多维知识表示。
-
规模优化架构:最后,提出了在Web规模下高效进行知识提取和集成的技术,支持实时更新,同时保持语义一致性和大规模处理能力。
实验设计
-
数据收集
:使用Dolma 1.7预训练语料库的三个子集:英文维基百科、Semantic Scholar的论文摘要和Common Crawl数据的3%。
-
计算资源
:使用80GB GPU和1,513 TFLOPS的FP16计算能力,运行Llama-3-8B-Instruct模型。
-
实验设置
:在三个基准数据集(MuSiQue、HotpotQA和2Wiki-MultihopQA)上进行多跳问答任务的评估,并与多个最先进的基于图的方法进行比较。
结果与分析
-
三元组提取精度:在所有数据集上,AutoSchemaKG展示了超过90%的三元组提取精度,表明其提取质量高且可靠。
-
信息保留:在多选题(MCQ)性能评估中,使用实体级三元组、事件级三元组和实体-事件组合三元组的知识图谱在保留信息方面表现出色,接近原文档的上限性能。
-
模式质量:模式推断方法在大多数情况下实现了超过80%的实体、事件和关系类型的召回率,随着大型语言模型参数规模的增加,性能有所提高。
-
多跳问答任务:在多跳问答任务中,AutoSchemaKG与HippoRAG2集成后,Full-KG配置在大多数数据集上比传统的检索方法(如BM25和Contriever)提高了12-18%的性能。
-
增强LLM事实性:在FELM基准测试中,HippoRAG2与AutoSchemaKG集成的知识图谱在不同领域显著提高了大型语言模型的事实性,特别是在维基百科和Common Crawl语料库上。
总体结论
AutoSchemaKG通过基于大型语言模型的三元组提取和模式推断,实现了无需预定义模式的自主知识图谱构建。该方法构建了ATLAS系列知识图谱,具有高质量的三元组提取和模式推断能力,在多跳问答任务和增强大型语言模型事实性方面表现出色。AutoSchemaKG展示了在无需专家干预的情况下,构建数十亿规模的知识图谱的可能性,为大语言模型中的参数知识提供了有价值的补充。
论文评价
优点与创新
-
自主模式生成
:AutoSchemaKG引入了一种新的方法,可以从文本中直接生成全面的模式,无需预定义的本体,同时保持语义一致性和领域覆盖范围。
-
统一三元组提取
:开发了一个实体-事件-概念提取框架,不仅捕捉传统的实体关系,还捕捉复杂的事件结构及其概念分类,创建多维知识表示。
-
规模优化架构
:提出了在Web规模下高效的知识提取和集成技术,处理数十亿三元组的同时保持语义一致性并支持实时更新。
-
跨域适应性
:展示了AutoSchemaKG在不同领域的有效性,提供了一种真正通用的知识获取框架。
-
多跳问答任务中的性能提升
:在多跳问答任务中,AutoSchemaKG比现有的基线方法提高了12-18%。
-
增强大型语言模型的事实性
:通过知识图谱的构建,AutoSchemaKG提高了大型语言模型在多个领域的事实性,最高可达9%。
-
自动模式生成与人类模式的高度对齐
:模式生成过程实现了95%的语义对齐,且无需手动干预。
-
构建大规模的ATLAS知识图谱
:构建了ATLAS家族知识图谱(超过9亿个节点和59亿条边),其规模可与大型语言模型中存储的参数化知识相媲美。
不足与反思
-
计算资源需求巨大
:构建数十亿规模的知识图谱需要大量的计算资源(超过78,400个GPU小时),限制了资源有限的研究人员的可访问性。
-
继承底层LLM的偏见和局限性
:所采用的方法继承了用于三元组提取和模式生成的底层LLM的偏见和局限性,可能在专业领域中影响性能,这些领域这些模型缺乏专业知识。
-
极端技术领域的挑战
:尽管在与人类编制的模式高度对齐方面取得了进展,但该方法在需要专家级概念组织的极其技术领域仍面临挑战。
-
知识图谱中的不一致性
:尽管提取了数十亿的事实,但在稀疏知识区域,知识图谱可能包含不一致性、矛盾或信息缺口。
关键问题及回答
问题1:AutoSchemaKG框架在三元组提取方面是如何设计的?其具体流程是什么?
AutoSchemaKG框架的三元组提取分为三个阶段,每个阶段使用不同的提示(prompt)来指导大型语言模型生成结构化输出。
-
实体-实体关系提取(Stage 1)
使用提示PEE,指导大型语言模型检测文本中的命名实体及其相互关系,生成实体节点和关系类型的三元组。
-
实体-事件关系提取(Stage 2)
使用提示PEV,指导大型语言模型识别文本中的事件及其关联的实体,生成或形式的三元组,其中e是实体节点,v是事件节点,r是关系类型。
-
事件-事件关系提取(Stage 3)
使用提示,指导大型语言模型检测文本中的事件之间的因果、时间或逻辑关系,生成(v1,r,v2)形式的三元组,其中v1和v2是事件节点,r是关系类型。
每个阶段的文本预处理和数据组织都经过精心设计,以确保输入在大型语言模型的 token 限制内,并保持上下文完整性。提取的三元组及其对应的文本和元数据被序列化为 JSON 文件,以便后续的模式推断和评估。
问题2:AutoSchemaKG在模式推断方面是如何利用大型语言模型生成概念短语的?其具体步骤是什么?
-
批量处理
:将知识图谱中的节点和边按批次处理。
-
提示生成
:对于每个节点或边,大型语言模型根据以下格式生成概念短语:
-
- 实体:“I will give you an ENTITY. You need to give several phrases containing 1-2 words for the ABSTRACT ENTITY of this ENTITY. You must return your answer in the following format: phrases1, phrases2, phrases3, …”
- 事件:“I will give you an EVENT. You need to give several phrases containing 1-2 words for the ABSTRACT EVENT of this EVENT. You must return your answer in the following format: phrases1, phrases2, phrases3, …”
- 关系:“I will give you a RELATION. You need to give several phrases containing 1-2 words for the ABSTRACT RELATION of this RELATION. You must return your answer in the following format: phrases1, phrases2, phrases3, …”
-
上下文增强
为了提高实体的抽象准确性,结合从知识图谱中提取的上下文信息对实体进行抽象。具体来说,对于每个实体,随机抽样其邻居节点,并将其标识和关系连接成上下文字符串,提供给大型语言模型作为额外的语义线索。
4. 结果存储
生成的概念短语存储在 CSV 文件中,每条记录对应一个节点或关系及其抽象短语,形成一个概念集合C。
通过这种方式,AutoSchemaKG能够将特定的实例抽象为一般类型,形成灵活且自动化的模式,增强知识图谱的适应性和跨域推理能力。
问题3:AutoSchemaKG在多跳问答任务中的表现如何?与其他基于图的方法相比有哪些优势?
-
数据集选择
在 MuSiQue、HotpotQA 和 2Wiki-MultihopQA 三个基准数据集上进行评估。
-
基线方法
与多个最先进的基于图的方法进行比较,包括 HippoRAG、HippoRAG2、GraphRAG、LightRAG 和 MiniRAG 等。
-
评估指标
使用标准的多跳问答任务评估指标,如 Exact Match(EM)和 F1 Score。
实验结果表明,AutoSchemaKG 与 HippoRAG2 集成后,Full-KG 配置在大多数数据集上比传统的检索方法(如 BM25 和 Contriever)提高了 12-18%的性能。具体来说,AutoSchemaKG 在多跳问答任务中的优势包括:
-
高质量的三元组提取
AutoSchemaKG 展示了超过 90%的三元组提取精度,表明其提取质量高且可靠。
-
模式推断
模式推断方法在大多数情况下实现了超过 80%的实体、事件和关系类型的召回率,随着大型语言模型参数规模的增加,性能有所提高。
-
事件和概念的增强
事件节点提供了丰富的上下文信息,概念节点建立了跨子图的语义桥梁,解决了复杂多跳问答的限制。
综上所述,AutoSchemaKG 在多跳问答任务中表现出色,特别是在处理复杂关系和需要丰富上下文信息的场景中,显示出显著的优势。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。