引言
知识图谱(Knowledge Graph, KG)为人类知识提供了一种结构化表示,便于组织概念或对象之间的关系。在知识图谱中,信息以三元组的形式表示,例如(《海底总动员》,取景于,悉尼)。由于简单的三元组形式过度简化了信息,最近提出了超关系知识图谱(Hyper-relational KG,HKG),通过向三元组添加限定词来补充辅助细节,其中限定词由一个关系和一个实体组成,例如(国家,澳大利亚)。在超关系知识图谱中,每条信息都表示为一个超关系事实,定义为一个三元组及其限定词,例如(《海底总动员》,取景于,悉尼),{(国家,澳大利亚),(州,新南威尔士州)}
。
在超关系知识图谱上进行推理和推断新知识需要理解和利用实体与关系之间的复杂相互关系。然而,大多数现有的超关系知识图谱研究没有充分利用其图结构。例如,基于Transformer的方法单独处理每个超关系事实(为简洁起见称为“事实”),未能捕捉不同事实之间的相互联系。其他一些最近的方法使用简单的一跳邻域信息来学习超关系知识图谱上的表示。虽然有研究提出了一个用于编码事实的图神经网络(GNN)层,但事实证明该GNN编码是冗余的,对整体性能没有关键影响。最近,另一种基于GNN的编码被引入,但它没有考虑每个事实中的关系和实体的位置。现有超关系知识图谱方法仅融入了有限的结构信息,未能有效利用超关系知识图谱的结构。
本文证明了充分利用超关系知识图谱的结构对于在其上进行成功推理至关重要,并且纯粹基于结构的表示学习可以在一系列直推和归纳链接预测任务上取得最先进的性能。本文提出了一种结构驱动的表示学习方法,名为MAYPL(用于超关系知识图谱表示学习的消息传递框架),该方法学习基于超关系知识图谱中实体和关系的相互连接、共现及其在事实中的位置来初始化它们的表示向量
。通过压缩每个事实中包含哪些实体和关系以及它们如何连接的信息,MAYPL计算事实级消息,并将这些消息以注意力方式聚合到实体和关系上。除了事实级结构外,MAYPL的注意力神经消息传递机制还考虑了组件级的连接性
。从初始化到链接预测,MAYPL仅利用给定超关系知识图谱的结构。由于MAYPL学习了如何在给定的超关系知识图谱结构上计算、传播和聚合消息,因此它也可以处理与训练超关系知识图谱不同的新超关系知识图谱。 尽管现实世界的知识库,如Wikidata和YAGO,都采用超关系知识图谱的形式,并且许多最近提出的方法直接处理超关系知识图谱,但也有一些方法将原始超关系知识图谱转换为知识超图(KHGs)或n元关系表示(NRRs),这会导致丢失原始超关系知识图谱中提供的一些信息。
相关工作
多元关系表示与知识超图
多元关系表示(NRRs)和知识超图(KHGs)已被研究用于为知识图谱添加补充信息。在超关系知识图谱中,每个事实由一个主三元组和一组限定词表示,而多元关系表示则使用一组角色-值对来表示每个事实。另一方面,在知识超图中,每个事实被转换为形如的元组,其中实体的顺序很重要。图1展示了从超关系知识图谱到多元关系表示或知识超图的转换过程。在图1(a)所示的原始超关系知识图谱中,由于事实(,{})和((),{()}),和都与相关联。然而,在图1(b)所示的多元关系表示中,被分解为和,因此现在与不同于的关系相关联。或者,也可以将三元组分解为和,在这种情况下,由于也存在,所以无法识别的尾实体。在图1(c)所示的知识超图中,许多信息也会丢失,例如在两个事实中作为限定词与相关联的信息就会丢失。因此,超关系知识图谱不能在不丢失信息的情况下转换为多元关系表示或知识超图,这表明直接处理超关系知识图谱比将其转换为其他形式更为可取。 针对多元关系表示,已提出NaLP和RAM等方法,考虑了对之间的相关性或角色感知建模。对于知识超图,已提出G-MPNN和HCNet等方法,它们可以部分解决归纳链接预测问题。虽然G-MPNN只能处理与观察到的实体一跳距离内的新实体,但HCNet可以处理推理时所有实体都是新实体的情况。然而,G-MPNN和HCNet都无法处理新关系,因为它们假设所有关系在训练时都已观察到,并学习特定于观察到的关系的表示。
超关系知识图谱上的表示学习
许多最近提出的超关系知识图谱方法利用了Transformer,包括StarE和HyNT等。有些方法很少考虑超关系知识图谱的图结构,专注于单独处理事实,有些方法考虑了实体的直接邻居或基于GNN的编码。例如,HAHE使用GNN层更新实体表示,但忽略了关于关系和组件位置的信息。所有这些方法都依赖于学习固定实体和关系的表示,这限制了在推理时处理新实体或关系的能力。与这些方法不同,MAYPL利用事实级、实体级和关系级的连接结构以及它们的组合和位置信息,从而能够对具有全新实体和关系的超关系知识图谱进行归纳链接预测。
归纳知识图谱补全
归纳知识图谱补全方法用于预测与训练知识图谱不同的新知识图谱中的缺失链接。虽然大多数现有的归纳知识图谱方法假设只有实体是新的,关系与训练集相同,但最近的一些方法允许实体和关系都与训练集不同,尽管它们无法处理超关系知识图谱。虽然QBLP假设超关系知识图谱中存在新实体但不存在新关系,但它需要实体的外部文本特征,其归纳能力来自这些外部特征。相比之下,MAYPL可以在超关系知识图谱中对新实体和关系进行归纳推理,而无需任何额外特征。
问题定义
定义1(超关系知识图谱)
超关系知识图谱定义为 ,其中 是实体集合, 是关系集合, 是超关系事实集合。超关系事实 定义为 ,其中 是三元组集合, 是限定词集合, 是 的幂集。 在超关系事实 中, 是主三元组, 是限定词。本文按如下方式指定每个实体的位置: 是头实体, 是尾实体, 是限定词实体。类似地,关系的位置指定为: 是主关系, 是限定词关系。超关系知识图谱上的直推链接预测如下所述。
定义2(超关系知识图谱上的直推链接预测)
给定超关系知识图谱 ,将 分解为三个互不相交的集合,即 ,其中 是训练集, 是验证集, 是测试集。超关系知识图谱上的直推链接预测是预测测试集 中超关系事实 中缺失的实体。 另一方面,在归纳链接预测中,模型在训练超关系知识图谱上训练,并在推理超关系知识图谱上进行预测如下所述。
定义3(超关系知识图谱上的归纳链接预测)
考虑训练超关系知识图谱 和推理超关系知识图谱 ,其中 或 。注意 是训练集,且 分解为三个互不相交的集合,即 ,其中 是观察到的事实集合, 是验证集, 是测试集。超关系知识图谱上的归纳链接预测是使用 预测测试集 中事实 中缺失的实体。
超关系知识图谱的结构表示学习
MAYPL的整体架构由结构驱动初始化器、注意力神经消息传递和链接预测三部分组成。结构驱动初始化器根据实体与关系的互连结构计算其初始表征,而注意力神经消息传递模块则基于事实的组合信息,利用实体和关系表征对事实级消息进行编码,这些消息会根据实体和关系的位置信息被动态聚合。MAYPL通过选择与查询相似度最高的实体,来预测不完整事实中缺失的查询实体。
MAYPL的结构驱动初始化器
本文提出了一种简单的基于消息传递的初始化器,称为结构驱动初始化器,其利用实体和关系的互连、共现及其位置。在初始化器中,实体x的表示通过考虑与x在相同事实中共现的实体以及与x相关联的关系来计算。类似地,关系r的表示基于与r在相同事实中共现的关系以及与r相关联的实体来计算。在这些过程中,会考虑实体和关系在事实中的位置,以及实体相对于其关联关系的位置。 初始化器输出实体的初始表示 ()和关系的初始表示 (),其中 是初始表示的维度。 令向量或矩阵的上标 表示第 层,其中 , 是初始化器中的总层数。本文设置可学习向量 ,分别在所有实体和关系间共享。令 表示初始化器中实体v的表示向量,且 。类似地,令 表示初始化器中关系r的表示向量,且 。为了指示实体或关系在事实h中的位置,本文定义位置指示函数 ,其返回z在h中的位置。如果z是实体, 返回头实体、尾实体或限定词实体。如果z是关系, 返回主关系或限定词关系。类似地, 定义为返回实体v相对于关系r的位置——头实体、尾实体或限定词实体。 在初始化器中,实体v的表示通过聚合与v在事实中共现的实体消息和与v相关联的关系消息来计算:
其中 是与v在事实中共现的实体集合, 是与v相关联的关系集合。实体的消息聚合函数 定义为:
其中 是实体v所属的事实集合,、 是根据实体v和u在h中的位置学习的可学习矩阵, 是根据实体v相对于关系r的位置学习的可学习矩阵。 类似地,关系r的表示通过聚合与r在事实中共现的关系消息和与r相关联的实体消息来计算:
其中 是与r在事实中共现的关系集合, 是与r相关联的实体集合。关系的消息聚合函数 为:
其中 是关系r所属的事实集合,、 是根据关系r和y在h中的位置学习的可学习矩阵, 是根据实体v相对于关系r的位置学习的可学习矩阵。 动机与原理:本文的结构驱动初始化器旨在纯粹利用超关系知识图谱的结构来计算实体和关系的初始表示,这为MAYPL的归纳推理能力做出了贡献。从所有实体共享的单个可学习向量 开始,通过 为 更新 ;在此过程中学习的是如何从每个实体的共现实体和关联关系中聚合消息。通过为实体和关系的不同位置引入不同的可学习投影矩阵,位置信息也被纳入此聚合过程。 类似地,对于关系, 学习从每个关系的共现关系和关联实体中聚合消息。 和 都可以直接应用于与训练超关系知识图谱不同的新超关系知识图谱,因为它们已经学习了如何利用超关系知识图谱的结构在其上聚合消息。经过 层后,为 计算 ,为 计算 ,这些将被输入到后续的注意力神经消息传递模块。
注意力神经消息传递
在初始化实体和关系的表示后,MAYPL通过消息计算和聚合来更新实体和关系的表示。具体而言,MAYPL考虑:(i) 计算事实的消息时,事实由哪些实体和关系组成;(ii) 更新实体表示时,实体属于哪些事实;(iii) 更新关系表示时,关系属于哪些事实。在此过程中,不仅考虑这些组成和连接信息,还考虑每个事实中实体和关系的位置。令 表示实体v的表示,其中 是第l层的维度,,L是总层数。令 表示关系r的表示。注意 且 。
计算事实消息
给定事实 ,将其分解为其关系-实体对的集合。例如, 被分解为 。令 表示事实h中关系r和实体v的对,其中v与r相关联, 是h的关系-实体对集合。则对p的消息 计算为:
其中 ,、 是根据v在h中的位置学习的可学习投影矩阵, 是哈达玛积。通过考虑 的 ,
事实h的消息计算如下:
这意味着事实h的消息通过其关系-实体对的位置感知聚合来计算。
更新实体表示
对于实体 ,考虑其关联关系和对应事实的对。令 表示关系r和事实h的对,其中v在h中与r相关联, 是v的关系-事实对集合。对q的消息 计算为:
其中 , 是根据v在h中的位置学习的可学习矩阵。注意 是v的消息,反映了其关联关系和对应事实的表示。最后,实体v的表示 通过对 的 进行注意力聚合计算:
其中 ,、 是可学习投影矩阵, 是可学习向量, 是激活函数。注意 是v的所有关系-事实对中q相对于v的相对重要性。
更新关系表示
类似地,对于关系 ,考虑其关联实体和对应事实的对。令 表示实体v和事实h的对,其中r在h中与v相关联, 是r的实体-事实对集合。则对 的消息 计算为:
其中 是根据r在h中的位置学习的可学习矩阵, 是根据v在h中的位置学习的可学习矩阵。注意 是r的消息,反映了其关联实体和对应事实的表示。最后,关系r的表示 通过对 的 进行注意力聚合计算:
其中 ,、 是可学习投影矩阵, 是可学习向量, 是激活函数。注意 是r的所有实体-事实对中 相对于r的相对重要性。
小结
在编码事实时,每个事实被分解为组成它的关系-实体对集合,事实的消息通过聚合这些对的表示来计算。每个实体的表示通过对其所属事实的消息和对应关系的表示进行注意力聚合来更新。每个关系的表示通过对其所属事实的消息和对应实体的表示进行注意力聚合来更新。在所有这些计算和更新中,都会考虑实体和关系的位置。
超关系知识图谱上的链接预测
在训练期间进行链接预测时,通过从训练集中的完整事实中删除一个实体来生成不完整事实。对于不完整事实h,令表示缺失的实体,也称为查询实体,假设其与关系r相关联。x的初始表示通过结构驱动初始化器计算:从开始,通过进行更新,其中,是与x在h中共现的实体集合。然后,给定,通过注意力神经消息传递进行更新,首先计算h的消息,接着通过更新x的表示,其中,所有模型参数在节中解释。通过计算后续与每个实体表示的点积相似度,MAYPL将相似度最高的实体预测为缺失实体,训练损失使用交叉熵。 推理时的链接预测过程与上述相同,只是不完整事实来自测试集而非训练集。在归纳链接预测中,推理超关系知识图谱与训练超关系知识图谱G不同。推理时,MAYPL利用的事实集初始化实体和关系的表示,更新这些表示,并执行链接预测。注意此过程中所需的所有模型参数均在训练期间学习得到;所学参数可直接应用于与训练超关系知识图谱不同的推理超关系知识图谱,因为从初始化到链接预测,MAYPL学习的是纯粹基于超关系知识图谱的结构来计算和聚合消息。
实验
本文所有基线的结果均来自基线的原始论文或引入数据集的论文。在所有实验结果表中,“-”表示从模型的原始论文或基准的论文中无法获得该模型在基准上的结果;最佳结果用粗体表示,次佳结果带下划线,第三佳结果用斜体表示。本文使用三种标准指标来衡量链接预测性能:平均倒数排名(MRR)、Hit10和Hit1。
超关系知识图谱上的直推链接预测
表2显示了使用WD50K和WikiPeople数据集在超关系知识图谱上的直推链接预测结果,其中所有方法都使用训练集进行训练,并在验证集上进行超参数调优,然后使用选定的超参数在训练集和验证集的并集上重新训练,并在测试集的事实中预测缺失实体。请注意,这是这些数据集的标准评估协议,本文也遵循此协议。模型预测主三元组中的实体(Tri)或事实中的所有实体(All)。此外,表3显示了在WikiPeople上的结果,其中模型预测所有实体。总体而言,MAYPL在这些直推链接预测任务上优于基线。
知识图谱上的归纳链接预测
表4显示了使用NL-50、WK-50和FB-50数据集在知识图谱上的归纳链接预测结果,其中所有实体都是新的,并且在推理知识图谱中一半的三元组包含新关系。本文观察到MAYPL以相当大的差距优于基线方法,在NL-50和WK-50上表现出色,在FB-50上与最佳基线相当。结果表明,MAYPL的结构导向表示学习在处理新实体和关系方面是有效的。
超关系知识图谱上的归纳链接预测
表5显示了使用WD20K(100)v1和WD20K(100)v2数据集在超关系知识图谱上的归纳链接预测结果,其中模型预测主三元组中的实体。此外,表6显示了在WP-IND和MFB-IND上的结果,其中模型预测事实中的所有实体;基线的性能使用中的Hit3而不是Hit10报告,因此MAYPL的性能也使用Hit3衡量。MAYPL在所有指标上显著优于所有方法,展示了MAYPL在超关系知识图谱上卓越的归纳能力。
消融研究和定性分析
表7显示了MAYPL在WikiPeople、WK-50和WD20K(100)v2上的消融研究,其中报告了MRR。本文考虑以下变体:(i)引入针对单个实体和关系的可学习向量,而不是使用结构驱动初始化器,(ii)移除注意力神经消息传递,(iii)让所有事实对实体和关系的更新贡献相等,而不考虑它们相对重要性,(iv)通过简单投影而不是关系聚合来计算关系表示,(v)计算事实、实体和关系的消息时,用连接替换Hadamard积,(vi)使用不同的参数来计算查询表示和其他实体表示。虽然某些模块的变化在归纳设置(WK-50和WDv2)中比直推设置(WP´)对性能的影响更大,但这些变体都会降低性能,验证了MAYPL中每个模块的贡献。
表8显示了在WP´中目标实体或关系的前3个最相似实体或关系,其中显示了实体(如温哥华或计算机科学家)的相似实体和关系(如家庭)的相似关系。给定一个目标,通过使用结构驱动初始化器返回的初始表示(Initializer)或MAYPL的最终表示(Final Rep.)计算目标与实体/关系之间的点积,来选择最相似的实体/关系。虽然初始化器能够大致选择与目标类型相似或概念相关的实体/关系,但通过最终表示选择的实体/关系变得更相关且在语义上更接近目标。这表明本文的初始化器计算了合理的初始表示,这些表示在MAYPL中通过后续的注意力神经消息传递得到了有效细化。
总结与讨论
MAYPL 基于超关系知识图谱(HKGs)中事实、实体和关系的连接方式、位置和组织形式来学习表示。由于其结构驱动的学习方式,MAYPL 能够在包含训练时未观测到的新实体和关系的新超关系知识图谱上高效计算表示。实验结果表明,MAYPL 在10个基准数据集上优于40种不同的基线方法,适用于多种场景,即超关系知识图谱上的直推链接预测、知识图谱上的归纳链接预测,以及超关系知识图谱上的归纳链接预测。MAYPL 的成功表明,彻底学习和利用超关系知识图谱的结构对于在其上进行表示学习是必要且充分的。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。