【知识图谱系列】基于生成式的知识图谱预训练模型GPT-GNN


作者:CHEONG

公众号:AI机器学习与知识图谱

研究方向:自然语言处理与知识图谱


本文介绍一篇基于生成式的图谱预训练模型GPT-GNN(KDD 2020),介绍GPT-GNN模型核心点和模型思路,完整汇报ppt获取请关注公众号回复关键字:GPT-GNN



一、Background


Background1、GPT/GPT2.0: GPT和GPT2.0是自然语言处理领域的生成式训练模型,预训练阶段通过大量预料进行无监督学习,预训练任务是单项语言模型,特征提取器用的是Transformer,预训练模型取自Transformer的Decoder阶段,使用了Masked Multi-Head Attention。本文GPT-GNN模型即受NLP中GPT模型启发,GPT-GNN模型是基于知识图谱的生成式预训练模型。

Background2、图谱预训练作用:图神经网络(GNNs)已被证明是建模图结构数据的强大工具。然而,训练GNN模型通常需要大量的特定任务的标记数据,而获取这些数据往往非常昂贵。利用自监督GNN模型对未标记图谱数据进行预训练是减少标记工作的一种有效方法,然后将预训练学习到的模型可用在只有少量标签图谱数据的下游任务。

Background3、大规模图谱预训练: 大规模知识图谱预训练方案都需要遵守以下几个套路:首先需要进行子图采样,使用子图进行模型训练;其次采用自监督学习模式,Mask图中的节点或边然后进行训练;计算Loss时需要进行负采样,图规模大无法基于全部负样例。



二、GPT-GNN Method


GPT-GNN模型首先是自监督的生成式的预训练框架,通过预训练捕捉图谱固有的内在的Structural and Semantic等属性信息,可以对各种下游任务起到有效提升作用。

GPT-GNN模型训练通过两个生成任务:Attribute Generation和Edge Generation,并且构建Node Attributes和Graph Structure之间的相互依赖关系,捕捉隐含的特征信息。结构图如下所示:

图片


问题1:预训练任务定义

两个生成任务实现思路Attribute Generation、Edge Generation:先给图中节点和边编号,通过已知X和E预测未知X和E,目的就是通过预训练最大化Graph Likelihood。例如在step i时,利用step i之前已经生成的X_(<i)和E_(<i)预测生成X_i和E_i,公式表示如下所示:

图片

生成任务便归纳为最大化logp_θ (X,E),接下来如何建立条件概率模型,最简单的一种方式便是认为生成X_i和生成E_i是相互独立的,即简化为如下公式:

图片

但显然这样就完全忽略了Attribute和Edge之间的依赖,而图谱预训练模型最主要的便是要学习Node Attributes和Graph Structure之间的潜在依赖。于是文中提出交替预测,即用观测到的Edge预测未知的Attribute,用观测到的Attribute预测未知的Edge,这样便可以学习到节点属性和图结构之间的潜在依赖。公式如下:

图片


问题2:Information Leakage问题解决方案

为了提高模型的训练效率,希望对输入的图只运行一次图模型即可同时对Attribute和Edge进行生成。但这样会存在一个信息泄露的问题,因为Edge Generation时需要节点Attribute作为输入,但这样就可能把节点Attribute泄露给Attribute Generation任务。因为本文将任务每个节点的任务拆成两个,即之前提到的Node Attribute Generation和Edge Generation两个任务,两个任务分开来训练。因为是自监督学习,需要对Attribute和Edge进行Mask,然后模型任务预测Mask的Attribute和Edge。

1、Attribute Generation任务: 损失函数Distance定义?如果是文本可以使用困惑度,如果是向量可直接用L2-Distance。

图片

2、Edge Generation任务: 首先假设Edge之间是相互独立的,因此可将似然函数写成如下公式:

图片

损失函数使用的是Negative Contrastive Loss,具体计算如下公式所示:

图片


问题3:GPT-GNN for Heterogeneous Graph

异质图是指图中包含多类型关系和节点,GPT-GNN模型可以直接使用,唯一需要注意的是每种类型的节点和边都可能有自己的解码器。


问题4:GPT-GNN for Large-ScaleGraphs

1、Sub-Graph Sampling: 针对于Large-Scale Graphs必须需要进行子图采样,提供了两种采样方式LADIES算法和HGSampling算法,HGSampling是LADIES异质图的版本;

2、Adaptive Queue : 负采样时使用了Adaptive Queue,保证负采样时可以取到Global的负样本,而不局限于Local负采样,具体实现方式是保存一个存储Node Embedding的队列,每处理一个新的子图时,通过添加最新的节点表示并删除最旧的节点表示来逐步更新这个队列,这样便可以保证负采样时不仅仅只利用本子图的样例,可以看到全局的样本信息。



三、GPT-GNN Conclusion


结论: 在10亿规模的开放学术图OAG和亚马逊Amazon数据上的综合实验表明,GPT-GNN模型在不同下游任务中显著优于最先进的没有经过预训练的GNN模型,最高可达9.1%。

图片



四、往期精彩


【知识图谱系列】Over-Smoothing 2020综述

【知识图谱系列】基于实数或复数空间的知识图谱嵌入

【知识图谱系列】自适应深度和广度图神经网络模型

【知识图谱系列】知识图谱多跳推理之强化学习

【知识图谱系列】知识图谱的神经符号逻辑推理

【知识图谱系列】动态时序知识图谱EvolveGCN

【知识图谱系列】多关系神经网络CompGCN

【知识图谱系列】探索DeepGNN中Over-Smoothing问题

【知识图谱系列】知识图谱表示学习综述 | 近30篇优秀论文串讲

【知识图谱系列】动态知识图谱表示学习综述 | 十篇优秀论文导读

【面经系列】八位硕博大佬的字节之旅

【机器学习系列】机器学习中的两大学派

各大AI研究院共35场NLP算法岗面经奉上

干货 | Attention注意力机制超全综述

干货 | NLP中的十个预训练模型

干货|一文弄懂机器学习中偏差和方差

FastText原理和文本分类实战,看这一篇就够了

Transformer模型细节理解及Tensorflow实现

GPT,GPT2,Bert,Transformer-XL,XLNet论文阅读速递

机器学习算法篇:最大似然估计证明最小二乘法合理性

Word2vec, Fasttext, Glove, Elmo, Bert, Flair训练词向量教程+数据+源码


汇报完整版ppt可通过关注公众号后回复关键词:GPT-GNN 来获得,有用就点个赞呗

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值