文章目录
摘要
由于网络在各种数据挖掘应用中得到了广泛的应用,网络嵌入技术近年来备受关注。我们试图打破现有模型中预设元路径和非全局节点学习的限制,提出了一个简单而有效的异构网络嵌入学习框架,该框架通过自监督的方式直接对原始的多类型节点和关系进行编码。更具体地说,我们首先从每个关系类型下的邻居属性中学习全局节点的基于关系的嵌入,并利用一个注意的融合模块来组合它们。然后,利用节点与其相邻图之间的强相关性,设计了多跳对比来优化区域结构信息,其中我们通过多跳消息传递来考虑多个关系,而不是预先设置元路径。最后,我们在各种下游任务上评估了我们提出的方法,如节点聚类、节点分类和两类节点之间的链接预测。实验结果表明,我们提出的方法在这些任务上明显优于最先进的基线。
1 引言
图表示学习[7]着重于将图结构数据嵌入到低维表示中。学习到的向量将是原始网络的有效表示,可用于链路预测、节点分类和节点聚类等各种数据挖掘任务[1]。为了使学习更容易适应无标记数据,自监督图表示学习被提出,并成为一种不引入任何监督模块的学习节点嵌入的趋势图学习范式。该技术已成功应用于许多领域,如社交网络挖掘和推荐系统。
从没有任何标签的图结构数据中学习有意义的节点表示是一个长期的挑战。基于人工神经网络,提出了自监督学习(SSL)[2,3],通过自动生成某种监督信号来实现对未标记数据的学习。早期经典的自监督作品通过随机游走[18]将图拓扑和节点链接作为向量嵌入。随着深度学习的迅速发展,从数据本身自动获取监督信号的图神经网络[23]成为自监督节点表示学习的一种有效方法。由于其简单性,同构网络一直是gnn的首选研究对象。然而,由多种节点和/或链接组成的异构网络作为现实世界中最普遍的图结构数据形式,近年来受到了越来越多的关注。图1(a)是一个具有多类型节点和链接的异构学术网络示例。
尽管已经提出了许多具有异构网络的性能良好的自监督模型,但其中大多数都采用了一种通用的策略,即通过元路径将原始的异构网络拆分为多个同构网络[9,16],如图1(b)所示。这种策略通过消除原始数据的异构性,使数据能够直接输入gnn,但仍然面临两个主要限制。首先,基于元路径的方法需要元路径来分离网络[16]。这些元路径通常是手动预先定义的,并根据来自模型的最终结果不断调整,以获得更好的性能[4,5,20,28]。这种操作不仅需要丰富的经验,而且在调整过程中会产生大量的额外成本。其次,基于元路径的方法将一个具有多类型节点和关系的异构图简化为几个具有单一类型节点和关系的同构图。在每个分割图中,只保留某一类型的对象,而排除其他类型的对象。在这种情况下,这些方法的结果不适用于某些下游任务