【知识图谱系列】基于生成式的知识图谱预训练模型GPT-GNN

最新推荐文章于 2025-05-22 10:25:05 发布

CHEONG_KG

最新推荐文章于 2025-05-22 10:25:05 发布

阅读量2.2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：知识图谱文章标签：知识图谱预训练模型生成 GPT-GNN 大规模

本文链接：https://blog.youkuaiyun.com/feilong_csdn/article/details/117148797

知识图谱专栏收录该内容

21 篇文章

订阅专栏

作者：CHEONG

公众号：AI机器学习与知识图谱

研究方向：自然语言处理与知识图谱

本文介绍一篇基于生成式的图谱预训练模型GPT-GNN（KDD 2020），介绍GPT-GNN模型核心点和模型思路，完整汇报ppt获取请关注公众号回复关键字：GPT-GNN

一、Background

Background1、GPT/GPT2.0： GPT和GPT2.0是自然语言处理领域的生成式训练模型，预训练阶段通过大量预料进行无监督学习，预训练任务是单项语言模型，特征提取器用的是Transformer，预训练模型取自Transformer的Decoder阶段，使用了Masked Multi-Head Attention。本文GPT-GNN模型即受NLP中GPT模型启发，GPT-GNN模型是基于知识图谱的生成式预训练模型。

Background2、图谱预训练作用：图神经网络(GNNs)已被证明是建模图结构数据的强大工具。然而，训练GNN模型通常需要大量的特定任务的标记数据，而获取这些数据往往非常昂贵。利用自监督GNN模型对未标记图谱数据进行预训练是减少标记工作的一种有效方法，然后将预训练学习到的模型可用在只有少量标签图谱数据的下游任务。

Background3、大规模图谱预训练： 大规模知识图谱预训练方案都需要遵守以下几个套路：首先需要进行子图采样，使用子图进行模型训练；其次采用自监督学习模式，Mask图中的节点或边然后进行训练；计算Loss时需要进行负采样，图规模大无法基于全部负样例。

二、GPT-GNN Method

GPT-GNN模型首先是自监督的生成式的预训练框架，通过预训练捕捉图谱固有的内在的Structural and Semantic等属性信息，可以对各种下游任务起到有效提升作用。

GPT-GNN模型训练通过两个生成任务：Attribute Generation和Edge Generation，并且构建Node Attributes和Graph Structure之间的相互依赖关系，捕捉隐含的特征信息。结构图如下所示：

问题1：预训练任务定义

两个生成任务实现思路Attribute Generation、Edge Generation：先给图中节点和边编号，通过已知X和E预测未知X和E，目的就是通过预训练最大化Graph Likelihood。例如在step i时，利用step i之前已经生成的X_(<i)和E_(<i)预测生成X_i和E_i，公式表示如下所示：

生成任务便归纳为最大化logp_θ (X,E)，接下来如何建立条件概率模型，最简单的一种方式便是认为生成X_i和生成E_i是相互独立的，即简化为如下公式：

但显然这样就完全忽略了Attribute和Edge之间的依赖，而图谱预训练模型最主要的便是要学习Node Attributes和Graph Structure之间的潜在依赖。于是文中提出交替预测，即用观测到的Edge预测未知的Attribute，用观测到的Attribute预测未知的Edge，这样便可以学习到节点属性和图结构之间的潜在依赖。公式如下：

问题2：Information Leakage问题解决方案

为了提高模型的训练效率，希望对输入的图只运行一次图模型即可同时对Attribute和Edge进行生成。但这样会存在一个信息泄露的问题，因为Edge Generation时需要节点Attribute作为输入，但这样就可能把节点Attribute泄露给Attribute Generation任务。因为本文将任务每个节点的任务拆成两个，即之前提到的Node Attribute Generation和Edge Generation两个任务，两个任务分开来训练。因为是自监督学习，需要对Attribute和Edge进行Mask，然后模型任务预测Mask的Attribute和Edge。

1、Attribute Generation任务： 损失函数Distance定义？如果是文本可以使用困惑度，如果是向量可直接用L2-Distance。

2、Edge Generation任务： 首先假设Edge之间是相互独立的，因此可将似然函数写成如下公式：

损失函数使用的是Negative Contrastive Loss，具体计算如下公式所示：

问题3：GPT-GNN for Heterogeneous Graph

异质图是指图中包含多类型关系和节点，GPT-GNN模型可以直接使用，唯一需要注意的是每种类型的节点和边都可能有自己的解码器。

问题4：GPT-GNN for Large-ScaleGraphs

1、Sub-Graph Sampling： 针对于Large-Scale Graphs必须需要进行子图采样，提供了两种采样方式LADIES算法和HGSampling算法，HGSampling是LADIES异质图的版本；

2、Adaptive Queue ： 负采样时使用了Adaptive Queue，保证负采样时可以取到Global的负样本，而不局限于Local负采样，具体实现方式是保存一个存储Node Embedding的队列，每处理一个新的子图时，通过添加最新的节点表示并删除最旧的节点表示来逐步更新这个队列，这样便可以保证负采样时不仅仅只利用本子图的样例，可以看到全局的样本信息。