前言
本文主要由大模型生成,由于篇幅较大所以就使用大模型来生成,如果觉得不好看到这里就可以停止了,最近也是在看链接预测相关的内容,也没有发现什么大体我能理解的,就以我的视角来稍微讲述一下链接预测任务,剩下的部分就是大模型冗长和稍微有点系统的介绍了。
链接预测听起来很高级,但实际没什么,主要用于知识图谱,所做的主要任务是用头实体和关系来预测尾实体或者用尾实体和关系来预测头实体,当然预测关系我是没有考虑了。
- 训练过程中其实主要就是训练实体和关系的嵌入,通过trans系列模型来得到或者图神经网络来训练嵌入的表示,通过一个打分函数来得到三元组的评分(三元组就是所谓的头实体-关系-尾实体的组合),然后使用损失函数来进行训练,一般用边际损失或者BCE。还有一点需要注意的是训练是一定需要负样本生成的。因为很多损失函数中本来就需要负样本,并且负样本有助于模型的学习。
- 而验证和测试过程与训练过程略有不同,他们主要是计算我们一开始说的主要任务,就头实体和关系预测尾实体而言,在进行模型跑过一轮之后将头实体和关系的嵌入提取出来然后和所有可能的候选尾实体进行计算(就是使用打分函数算出来一个值),这个值代表尾实体的分数,尾实体的分数越高,代表我们预测他为真正的尾实体,而其中使用的指标就是hit@1、hit@3、hit@10、mr和mrr了。并且需要注意的是这两个阶段是不需要负样本生成的。
- 关于我浅显的认知也就说这么多了,应该会有很多不太对的地方,但这是我的了解,如有错误,敬请指正,反正我也不是什么高手,只是尽量能让人省点力气就省点力气,下面的部分就是大模型的实力了,看不看随便。
链接预测任务概述
- 链接预测(Link Prediction)是图数据挖掘中的一个基本问题。它旨在根据已有的网络结构和节点间的交互历史,预测在将来两节点之间是否会出现连接。换句话说,给定一张当前的网络快照,链接预测试图推测哪些尚未相连的节点对最有可能在未来形成链接。这一问题在社交网络分析、信息推荐、生物信息学等领域具有重要意义,是网络科学和机器学习研究者共同关注的热点。例如,在社交媒体中,预测未来的好友关系可以用于好友推荐;在文献引用网络中,可以预测潜在的合作关系;在知识图谱中,可以推断缺失的事实三元组;在生物网络中,可以预测蛋白质之间的相互作用或药物与靶标的关系。链接预测已经发展出多种方法和技术流派,从简单的相似度度量到复杂的深度学习模型,形成了一条清晰的方法演进脉络。下面将详细介绍链接预测的概念、背景和主要应用场景,并按照时间顺序梳理主要的方法,包括:基于相似性的启发式方法、传统机器学习方法、矩阵分解与随机游走方法、深度学习方法,以及最新的前沿进展(Transformer、大模型结合等)。文章也将概述链接预测任务的一般步骤,如数据预处理、特征提取、模型训练和评估等,使读者对链接预测从问题定义到解决方案有一个全面了解。
链接预测的背景与应用场景
- 链接预测最初兴起于对社交网络的研究。早在2000年代中期,研究者就发现利用网络中节点对的相似性可以预测它们之间未来是否会连接。Liben-Nowell和Kleinberg (2007) 的经典工作提出,用节点“接近度”(proximity)的各种度量来评分未连接的节点对,并据此排序以预测未来可能出现的链接。他们考察了多个简单但有效的相似性指标,包括共同邻居数、Jaccard系数、Adamic-Adar指数、度数乘积(Preferential Attachment)、Katz指数以及最短路径距离等。结果表明,即使非常简单的度量(例如共同邻居数或Adamic-Adar指数),在不少社交网络中也能取得令人惊讶的预测效果。这一发现激发了大量后续研究,也奠定了链接预测任务的基础。随着这一问题的重要性被认识,链接预测的应用场景迅速拓展到许多领域。在社交网络中,好友推荐是最直接的应用之一——通过预测用户之间可能形成的新关系,社交平台可以向用户推荐潜在的朋友。在电子商务领域,链接预测被用于构建推荐系统,通过预测用户和商品之间可能建立的“链接”(如用户可能购买某商品),提升推荐的准确性。在生物医学领域,研究人员利用链接预测技术来发现药物-蛋白或疾病-基因网络中潜在的相互作用关系。例如,通过现有生物网络的数据,可以预测尚未验证的疾病与蛋白质之间的关联,这对于新药研发具有重要意义。在学术文献引用和合作网络中,链接预测可以用来预测未来的引用关系或合作关系,从而帮助发现潜在的学术合作伙伴或推荐相关文献。另外,在知识图谱中,链接预测对应于知识图谱补全任务,用以推断缺失的实体关系(三元组)。总之,凡是可以用图(网络)建模的领域,只要存在“潜在但当前未连接”的实体对,链接预测技术都可能有用武之地。需要注意的是,链接预测问题往往具有稀疏性和不平衡性。对于一个含有∣V∣|V|∣V∣个节点的网络来说,理论上可能的节点对有(∣V∣2)\binom{|V|}{2}(2∣V∣)对,其中实际存在链接的只是一小部分。因此在构造预测任务时,负样本(不存在链接的节点对)的数量远远大于正样本(存在链接的节点对),类别极其不平衡。此外,若要预测未来链接,通常需要将网络的时间演化过程考虑进去。例如常用的做法是使用网络在某个时间窗口TtrainT_{\text{train}}Ttrain内的链接作为训练数据,在稍后的时间窗口TtestT_{\text{test}}Ttest内的新增链接作为测试数据,以模拟真实场景中的演化。总之,在应用链接预测于实际问题时,需要精心设计数据集划分策略和采样策略,以缓解不平衡和时间依赖性的影响。
链接预测任务的一般步骤
无论采用何种具体方法,链接预测任务通常遵循类似的流程。总体来说,可以分为以下几个步骤
1.数据准备与划分:首先获取网络的图数据,这可以是一个快照(静态网络)或一段时间内的网络演化序列。在静态场景下,常将已有的网络连边集随机划分为训练集和测试集。在预测未来链接的场景下,则按时间将较早时期的边作为训练集、较晚新增的边作为测试集。需要特别注意负样本的生成,一般会随机采样相同规模的未连接节点对作为负例。为了提高训练效果,可能需要对负样本进行下采样或对正样本过采样。划分完成后,训练集用于模型学习,测试集用于评估模型预测性能。
2.特征提取或表示学习:接下来,需要为每对候选节点(特别是训练集中的正负样本,以及将来要评分的节点对)提取特征。早期的方法直接使用预先定义的相似度指标作为特征(例如共同邻居数、Jaccard系数等)。在监督学习方法中,可以为每对节点提取一个多维特征向量,包括各类结构相似度指标、节点属性相似度、节点度数等。随着方法的发展,也可以通过表示学习自动获取特征表示,例如矩阵分解或图嵌入方法会为每个节点学习一个低维嵌入向量,然后通过向量运算(如点积)得到节点对的关联分数,这实际上等效于自动提取了特征。在深度学习方法中,特征提取和模型训练往往是端到端结合的,例如图神经网络模型通过网络结构的传递聚合直接学习到能用于预测的节点表示。
3.模型训练:有了样本的特征表示之后,就可以训练预测模型。对于监督学习框架,这通常意味着训练一个二分类模型,将节点对分类为“有链接”或“无链接”。早期常用的分类器包括逻辑回归、决策树、支持向量机,以及后来的集成方法(如随机森林、梯度提升树)等。模型的输入是上一步得到的节点对特征,标签则来自训练集(正例=1,负例=0)。对于无监督或半监督的方法,则没有显式的标签监督,例如相似度度量法直接根据计算的评分排序,无需训练;矩阵分解和图自动编码器通常通过重构误差或自监督目标来训练(比如最小化重构邻接矩阵的误差)。图神经网络则可以通过构造损失函数(如链接存在与否的交叉熵)进行端到端训练,或者在变分图自编码器中通过最大化似然训练模型的编码器和解码器。无论哪种方式,模型训练的目标都是学习到一个能够对任意给定节点对输出关联分数或概率的模型。
4.模型评估:在模型训练完毕后,需要在测试集上评估其表现。常用的评估指标包括AUC(ROC曲线下面积)、准确率(Accuracy)、精确率 / 召回率 / F1、以及针对链接预测排序结果的Precision@K和Hits@K等。由于链接预测本质上可以看作一个排序任务(将未连通节点对按预测分数排序,看真实链接是否排在前列),AUC 被广泛采用,因为它反映了随机正例得分高于随机负例的概率。另外,Precision@K或Hits@K衡量的是在得分最高的前K个预测链接中,有多少是真正存在的链接,也直观反映了方法用于推荐任务的有效性。在实际应用中,还会关注效率和可扩展性,因为大型网络往往包含海量节点和边。评估过程中通常需要考虑类不平衡问题,如Precision@K等指标更能反映对正例的识别能力,而不是被大量负例主导。通过以上步骤,我们能够从数据中训练并验证一个链接预测模型,然后将其用于现实场景的新链接发现。
下面,我们将按照发展的时间顺序,介绍链接预测任务的主要方法类别,包括基于相似性的启发式方法、传统机器学习方法、矩阵分解与随机游走方法、深度学习方法,以及最新出现的前沿方法和趋势。
基于相似性度量的早期方法
相似性度量法是链接预测最早期的一类方法。这类方法不需要训练数据,直接依据网络拓扑计算每对未连接节点的一个相似度分数,然后将分数最高的若干对节点作为预测的潜在链接。其核心假设是:两个越相似的节点越有可能在未来建立链接。这里的“相似”通常指网络结构上的相似性或接近程度,如是否有大量共同邻居等。经典的相似性指标包括:
共同邻居数(Common Neighbors):定义为节点X和节点Y的共同邻接点数量,即CN(X,Y)=∣Γ(X)∩Γ(Y)∣\mathit{CN}(X,Y)=|\Gamma(X)\cap \Gamma(Y)|CN(X,Y)=∣Γ(X)∩Γ(Y)∣。这是最简单的度量之一,直观反映了X和Y间的“社交”重叠度。共同邻居数多用于社交网络,根据“三度分隔”理论,若两人有很多共同好友,他们成为朋友的概率也更高。
Jaccard系数(Jaccard Coefficient):定义为共同邻居数与总邻居数的比值,Jaccard(X,Y)=∣Γ(X)∩Γ(Y)∣∣Γ(X)∪Γ(Y)∣\mathit{Jaccard}(X,Y)=\frac{|\Gamma(X)\cap \Gamma(Y)|}{|\Gamma(X)\cup \Gamma(Y)|}Jaccard(X,Y)=∣Γ(X)∪Γ(Y)∣∣Γ(X)∩Γ(Y)∣。该指数衡量了X、Y的邻居重合程度,规避了度数差异过大的问题。Jaccard系数在信息检索领域常用于衡量集合相似度,被引入网络链接预测后,也是一种有效的局部相似度指标。
Adamic-Adar指数(AA):考虑到了共同邻居的“受欢迎程度”。具体定义为AA(X,Y)=∑Z∈Γ(X)∩Γ(Y)1log∣Γ(Z)∣\mathit{AA}(X,Y)=\sum_{Z\in \Gamma(X)\cap \Gamma(Y)} \frac{1}{\log |\Gamma(Z)|}AA(X,Y)=∑Z∈Γ(X)∩Γ(Y)log∣Γ(Z)∣1。也就是说,共同邻居Z的度数(邻居数)越大,对X和Y相似度的贡献越小。这一指标由Adamic和Adar在研究博客链接时提出
(他们发现AA指标在多个社交网络上的预测效果优于简单的共同邻居数)。AA指数在社交网络中经常表现良好,因为它降低了“大度数”节点(比如社交圈很大的人)造成的噪音影响。
资源分配指数(Resource Allocation):形式上与AA类似,只是改用1∣Γ(Z)∣\frac{1}{|\Gamma(Z)|}∣Γ(Z)∣1而非1log∣Γ(Z)∣\frac{1}{\log |\Gamma(Z)|}log∣Γ(Z)∣1作为权重衡量共同邻居Z对相似度的贡献。这一指标可理解为一种资源分配过程:X将“资源”平均分给其邻居,每个共同邻居再将收到的资源平均分给Y,计算Y从X处得到的资源总量即为分数。
Preferential Attachment(度数乘积):定义为PA(X,Y)=∣Γ(X)∣×∣Γ(Y)∣\mathit{PA}(X,Y)=|\Gamma(X)|\times|\Gamma(Y)|PA(X,Y)=∣Γ(X)∣×∣Γ(Y)∣。这一指标来源于网络科学中的“优先连接”机制——度数大的节点更可能吸引新链接。PA指数简单地认为高度节点之间更可能连接,因为它们都有更强的吸引力。虽然过于简单,但在某些数据(如作者合作网络)中也有一定效果。
Katz指数:由Katz在1953年提出,用于社会网络分析。它考虑所有长度>=1的路径对两个节点的贡献:两节点之间路径越多、路径越短,则分值越高。常用公式为Katz(X,Y)=∑l=1∞βl⋅∣pathsl(X,Y)∣\mathit{Katz}(X,Y)=\sum_{l=1}^{\infty} \beta^l \cdot |\text{paths}_l(X,Y)|Katz(X,Y)=∑l=1∞βl⋅∣pathsl(X,Y)∣,其中∣pathsl(X,Y)∣|\text{paths}_l(X,Y)|∣pathsl(X,Y)∣是长度为lll的简单路径数,β\betaβ是小于1的衰减系数(确保收敛)。当β\betaβ较小时,Katz指数主要累加短路径(类似于共同邻居和两跳邻居信息);β\betaβ大时则考虑更长路径。Katz指数是一种全局相似度指标,因为它利用了整个网络的路径信息。在实践中,Katz指数往往比纯局部指标更准,但计算成本也更高,在大规模图上需要借助矩阵运算(如邻接矩阵的幂级数展开)来实现。
上述只是众多相似性度量中的一部分。还有其他指标如Salton指数、Sorensen指数、Hub Promoted/Depressed指数、Local Path指数等,各自融合了不同的网络信息。
- 总体而言,相似性方法的优点是简单直观且计算高效,常常只需要遍历节点邻居即可算出分数。许多研究证明,在社交网络等情况下,这些简单启发式可以取得令人惊讶的准确度。然而,它们也存在局限:每种启发式都有自己隐含的假设,在某些网络中可能失效。例如,Preferential Attachment在多数社交网络中有效,但在学术合作网络中未必适用,因为新合作更可能发生在研究领域接近而非单纯高产的学者之间。正因为如此,学者们很快开始探索能自动学习相似度度量的算法,以替代人工定义的启发式。
基于机器学习的监督方法
- 为了克服单一启发式指标的局限,研究者在2000年代末开始引入监督学习方法,将链接预测视作一个可学习的二分类问题。这一思路由Murata & Moriyasu (2007) 等工作率先提出,即针对每对节点提取一组特征,再训练分类器判断该节点对是否有链接。具体而言,首先为每个候选节点对计算多种拓扑特征(例如双方的度数、共同邻居数、最短路径长度、所在社团是否相同等)以及节点属性特征(如果有属性信息的话,如用户兴趣相似度等)。然后,将这些特征组合成特征向量,标注该节点对目前是否有连接(有=1,无=0),于是转化为一个监督的学习任务。可以训练如逻辑回归、支持向量机(SVM)、随机森林等分类模型来判断链接存在性。这种特征工程加分类器的框架为链接预测提供了更灵活强大的预测能力。通过适当选择和提取特征,模型可以学习出比单一启发式更复杂的判别边存在与否的规则。例如,分类器可以自动学习将多个弱信号组合成强信号,提高预测准确率。此外,监督模型还可以结合节点的外部属性信息(比如用户个人资料的相似度),这是纯粹依赖网络结构的启发式所无法利用的。在这一方向上,Lichtenwalter et al. (2010) 提出了一个通用的高性能链接预测框架“HPLP”,其核心是在严重不平衡的数据上应用过采样和代价敏感学习等技术来提升预测效果。实验显示,经过监督学习框架和不平衡处理的HPLP方法,性能优于大多数无监督指标。此后,不少研究在这一思路上进一步改进,如Al Hasan等人综合多种拓扑特征训练分类器,Scellato等人 (2011) 将地理位置等融合进特征,以及Dong等人 (2012) 在社交网络跨平台的链接预测等。总的来说,基于机器学习的方法在2010年前后成为链接预测研究的主流之一。值得一提的是,在监督学习框架中,一些特殊设计的算法也被提出以适应网络数据的特性。例如,Backstrom和Leskovec (2011) 提出了监督随机游走(Supervised Random Walks, SRW)算法,将随机游走过程的转移概率参数通过监督学习进行优化。SRW算法能够自然地结合网络结构和节点属性信息,通过学习不同类型边的权重,极大提升了链接预测的准确率。在多个数据集上的实验表明,SRW相比传统的无监督随机游走(如带重启随机游走RWR)取得了显著更高的AUC,甚至优于将多种手工特征丢入逻辑回归所得到的结果。这一结果说明,通过监督学习来自动学习结合多因素的链接预测策略,确实能够超越任一单一启发式或简单组合。这也为后来兴起的深度学习方法埋下了伏笔:如果我们有更强大的模型和表示学习能力,就有望从数据中学得更加复杂的“连接规律”。总的来说,基于机器学习的链接预测方法在2010年前后蓬勃发展。它们的共同特点是:利用已有链接作为监督信号,融合多种特征训练模型。这类方法相对易于实现且效果显著,在实际应用中也较为常见(例如社交网络公司常用这种思路结合大量用户特征来预测好友推荐)。然而,其性能高度依赖于人工特征选择和特征质量。随着网络数据规模和复杂性的增长,如何自动地从网络中学习到有用特征,成为下一步研究的重要方向。这引出了基于矩阵分解和图嵌入的方法。
基于矩阵分解和随机游走的方法
- 项目在2010年前后,受推荐系统中矩阵分解技术成功的启发,研究者开始将链接预测视为一个矩阵补全或分解问题。基本思想是:将网络的邻接矩阵表示为一个稀疏的0/1矩阵,1表示已存在的链接,0表示未连接(或未知)。链接预测的目标就是对这个矩阵的未知条目进行填充或打分。本质上,这是一个矩阵补全问题,可通过低秩矩阵分解来解决。具体来说,假设存在一个低维的潜在向量空间,使每个节点iii对应一个ddd维潜在向量uiu_iui,使得连接iii-jjj存在的可能性可以由他们的向量内积ui⊤uju_i^\top u_jui⊤uj来刻画。那么我们可以通过优化使已存在的链接的内积值逼近1、未存在链接的内积值逼近0,从而学出这些潜在向量。训练完成后,任意两节点潜在向量的内积就给出了他们形成链接的得分。Kunegis和Lommatzsch (2009) 提出了将谱分析应用于链接预测,利用谱图变换学习节点的潜在表示。他们的方法可看作是矩阵分解的一种形式,即通过对邻接矩阵或拉普拉斯矩阵进行特征分解(SVD),获得节点在低维谱空间的表示,然后用这些表示重构边。Menon和Elkan (2011) 则明确地将链接预测表述为矩阵分解问题。他们在ECML-PKDD 2011的论文题目就叫“Link prediction via matrix factorization”,证明了通过适当的目标函数(如带权重的矩阵分解以处理0/1不平衡)可以取得优于传统方法的效果。矩阵分解模型有一个优势是可解释性:每个维度可以被视为某种隐含的属性,两个节点内积高说明它们在隐空间中“相似度”高。此外,矩阵分解便于结合额外信息,例如可以在分解时加入偏置项表示节点的总体活跃度,或融合节点属性矩阵进行联合分解(从而将内容和结构一起考虑)。与矩阵分解密切相关的是图嵌入(Graph Embedding)方法的兴起。图嵌入旨在将网络的节点映射为低维向量,同时保留原网络的拓扑结构特性,从而可以用于包括链接预测在内的下游任务。2014年,Perozzi等人提出了DeepWalk算法,将随机游走与word2vec模型结合,实现了图的无监督表示学习。DeepWalk通过在图上对每个节点执行随机游走得到“节点序列”,然后将这些序列视为句子,用类比自然语言的方式训练词向量模型,从而得到每个节点的向量表示。Grover和Leskovec (2016) 在DeepWalk基础上提出了更灵活的node2vec算法,引入了返回和离开参数来控制随机游走的策略,使得既能捕捉同类节点的聚集特性,又能捕捉结构上的角色相似性。Node2vec等算法能够学习节点的连续特征表示,这些表示可用于多种任务,包括节点分类和链接预测。例如,我们可以计算两个节点嵌入向量的内积或余弦相似度,作为它们链接可能性的度量。一系列后续工作如LINE (2015)、HOPE (2016) 等也提出了针对有权图、异质图的嵌入方法。值得关注的是,随机游走不仅用于生成节点嵌入,也可以直接用于定义节点对的相似度。一些准局部的相似性指标就借鉴了随机游走思想。例如带重启的随机游走(RWR)会从一个节点出发以一定概率随机游走、以一定概率返回源点,达到稳态后另一个节点的访问概率可以作为相似度评分。再如前文提到的Katz指数也可看作包含无限长随机游走(路径)的贡献。PropFlow指标模拟将资源从一个节点按随机游走概率传播到另一个节点,累积的资源量即为分数。这类方法利用了更全局的信息,在一定程度上比简单共同邻居更强。然而,它们通常需要迭代计算,成本较高。而通过预训练的嵌入向量,可以高效地计算任意节点对的得分,这也是图嵌入流行的原因之一。总体而言,矩阵分解和图嵌入方法在2010年代中期成为链接预测的重要工具。这类方法有几个显著特点:第一,无监督或弱监督——它们不需要每条边的存在标签,而是利用网络结构本身作为训练信号(重构邻接矩阵、保持游走相似度等);第二,潜在空间——它们假设存在一个低维的潜在表示可以刻画节点的关系,从而将链接预测转换为向量运算问题;第三,可扩展性——很多嵌入算法的复杂度接近线性,可以处理百万级别的图。实际应用中,业界也常用预训练嵌入+简单相似度计算来进行链接预测或推荐,因为这是相对高效且易于更新的方法。然而,这类方法在非常复杂的网络关系面前可能仍然不足,例如难以刻画高阶的网络模式或异质信息。因此,近年来研究者转向借助更强大的深度学习模型来进一步提高链接预测的效果。
基于深度学习的方法
- 项目随着深度学习在语音、视觉、自然语言处理等领域的成功,人们也开始尝试将深度模型用于图数据的链接预测任务。深度学习的优势在于强大的表示学习能力和非线性建模能力,这为捕获复杂的网络连接模式提供了新途径。大致在2016年前后,出现了几类基于深度学习的链接预测方法,包括图自动编码器和图神经网络等。
图自动编码器(Graph Autoencoder, GAE):这是将经典自动编码器思想用于网络的数据重构。代表性工作如Kipf和Welling (2016) 提出了变分图自动编码器(VGAE)。VGAE使用了图卷积网络(GCN)作为编码器,将每个节点编码成一个潜在向量zzz,再通过简单的内积解码器来重构图的邻接矩阵。模型以无监督方式训练,使得重构的邻接矩阵与原始矩阵尽可能接近(通常采用重构边的概率的交叉熵损失)。Kipf等人的实验表明,在引文网络等数据上,VGAE在链接预测任务上取得了有竞争力的结果。与以往的嵌入方法不同,图自动编码器能够自然地结合节点属性特征(例如论文的文本特征等),因为编码器可以利用节点的特征输入。这一系列工作证明了深度神经网络可以用来直接学习网络结构的低维表示,并且由于加入了非线性变换,表达能力更强。
图神经网络(Graph Neural Network, GNN):图神经网络是近年来兴起的一类在图上进行端到端学习的深度模型。GNN的一个基本思想是消息传递(message passing):节点通过相邻边与邻居交换信息,从而更新自身的表示。经典的图卷积网络(GCN)、GraphSAGE、图注意力网络(GAT)等模型都属于这个范式。虽然GNN最初主要用于节点分类等任务,但是它可以自然地用于链接预测。常见的做法有两种:一是直接建模边,例如设计一个模型来输出边(i,j)(i,j)(i,j)存在的概率;二是间接利用节点表示,即先用GNN学到每个节点的表示向量hih_ihi,然后对两个节点i,ji,ji,j通过一个类似解码器的函数(如内积或一个小MLP)输出链接分数。后一种方式其实就是前述图自动编码器的思路。然而,纯粹用全局的图自编码往往抓不住细粒度的连接模式。为此,Zhang和Chen在2018年提出了SEAL方法(其论文题目即《Link Prediction Based on Graph Neural Networks》)。SEAL的做法是:对于每一个待预测的节点对,都抽取一个包含该节点对及其局部邻域的子图,然后训练一个GNN在这个子图上判断两节点是否应连接。通过这种子图级别的局部学习,GNN可以捕捉诸如“二人有多个共同朋友且这些朋友彼此也紧密相连”等复杂模式,而这些模式是传统方法难以量化的。SEAL模型在若干基准数据集上取得了当时前所未有的性能,显著超越了各种启发式和嵌入方法。这证明了深度GNN能够自动学习出隐含于网络结构中的连接规律。
其他深度模型:除了GNN和自编码器,也有一些面向链接预测的特殊深度模型设计。例如基于多层感知机(MLP)或深度神经网络直接将两节点的属性和拓扑特征映射到链接概率、基于时序深度模型预测演化中的新链接(如使用RNN或时序卷积网络建模动态图的链接产生),以及异质网络中特殊的深度模型(如利用元路径的HetGNN等)。在知识图谱领域,虽然有传统的嵌入方法(TransE、DistMult等),但也开始有工作将卷积神经网络、图注意力网络用于链接预测(知识图谱补全),如ConvE (2018) 用卷积提取三元组特征,CompGCN (2020) 用GNN融合关系信息等。不过总体来说,图神经网络框架已经成为深度链接预测的主流,因为它提供了统一且灵活的图数据表示学习手段。
深度学习方法的引入大大提高了链接预测任务的上限。这类方法能够自适应地学习复杂的连接模式和特征组合,减少对人工特征的依赖。许多研究报告显示,基于深度模型的方法在社交网络、学术网络等基准数据集上显著超越此前的非深度方法。尤其是在有属性信息或者网络结构非常复杂的情况下,深度方法的优势更加明显。当然,深度模型也带来了更高的计算和数据需求,需要较大的训练样本和算力支撑。此外,它们往往缺乏可解释性:模型虽然效果好,但我们难以直接提取出类似“共同邻居”这样易于理解的规则。不过,随着研究的进展,深度链接预测模型的可解释性和效率也在逐步改善。例如,有工作结合GNN和启发式指标以得到可解释的得分分解,还有一些模型通过注意力机制来指示重要的邻居连接。在下一节,我们将介绍当前一些前沿探索,它们进一步拓展了深度链接预测的思路,包括Transformer在图上的应用以及大模型(LLM)的结合等。
链接预测的前沿进展
- 进入2020年代,链接预测领域出现了许多新的前沿方向,主要集中在更复杂模型的引入和预训练范式的迁移上。一方面,Transformer等强大的深度学习架构被尝试用于图数据;另一方面,大规模预训练和多模态信息融合等趋势也在链接预测中崭露头角。
图Transformer模型:Transformer在序列建模中表现出色,研究者也在探索将其应用于图结构。与传统GNN主要聚合局部邻域信息不同,Transformer通过自注意力机制可以灵活建模任意两个节点之间的关系,因此有望捕获图中的远程依赖。一个典型工作是Graph-BERT等模型,将BERT风格的Transformer引入图数据,使用随机掩蔽节点的方法进行预训练,再用于下游链接预测等任务。另一个方向是在知识图谱链接预测中使用Transformer。比如MKGformer和MM-Transformer模型利用Transformer融合多种信息源来进行知识图谱补全。实验表明,Transformer架构在结合图结构和多模态特征(如文本、图像)时能够取得比以往模型更好的效果。例如,某研究将图结构特征、文本描述、图像信息通过Transformer的键值注意力机制进行融合,在知识图谱链接预测的Hits@10指标上比之前的多模态方法提高了约1.3个百分点。此外,Facebook的研究人员提出的GraphSAGE+Transformer模型在大型社交图上的表现也十分亮眼。总的来说,Graph Transformer结合了GNN的结构感知和Transformer的高阶交互建模能力,被认为是图深度学习下一个重要方向。
预训练和大模型结合:受到NLP领域预训练范式的影响,图领域也开始探索预训练模型。Hu等人 (2020) 提出了GPT-GNN框架,将生成式预训练的思想引入图神经网络。GPT-GNN通过设计自监督任务(例如按属性生成邻居特征)在大型异质图上进行预训练,使得模型学习到丰富的结构和语义模式。下游再微调进行链接预测时,预训练模型表现出更好的精度,证明了大规模预训练对图任务的价值。另一个新趋势是结合大规模语言模型(LLM)来辅助链接预测,特别是在知识图谱领域。一些研究提出利用预训练的语言模型(如GPT-3、BERT)来生成或评估可能的链接。例如,通过将知识图谱中的关系和实体描述构造成提示词,让LLM去“填空”预测未知的实体。又或者,利用LLM对节点的文本属性进行编码,提升链接预测模型对语义信息的利用。2023年的一项研究提出了KG-LLM框架,巧妙地检索知识图谱中与候选链接相关的事实作为提示,输入大语言模型从而预测新的链接。这使模型能在开放世界下预测不在图中的新实体链接,实现了知识图谱补全的新方式。虽然这类方法目前还处于探索阶段,但体现了跨模态大模型对链接预测的潜在增益。复杂场景下的链接预测:前沿研究还关注在更加复杂和现实的网络场景中改进链接预测性能。例如,动态图(时序网络)的链接预测成为热点,涌现了基于时间卷积、时序GNN、以及时序知识蒸馏等各种方法,能更精细地预测链接何时出现而非是否出现。再如跨网络的链接预测,考虑在不同网络间迁移知识(transfer learning)。随着社交平台的多样化和互联,这方面具有实际意义。此外,异质网络(包含多类型节点和边)的链接预测也在深入研究,方法包括利用元路径(meta-path)提取特征、设计适配异质图的GNN模型等。可以预见,未来的链接预测模型将越来越擅长处理多样且复杂的图数据,包括多关系、多模态和动态演化等特性。
综上所述,链接预测任务经过多年的发展,已经形成了从简单到复杂的完整方法谱系。从最初基于相似度的启发式算法,到融合人工特征的机器学习模型,再到利用矩阵分解和嵌入技术的无监督方法,以及近年来兴起的深度图神经网络和Transformer模型,每一代方法都在不同层面提升了链接预测的能力。在实际应用中,方法的选择往往需要在准确性、可解释性和计算代价之间权衡:简单启发式可解释性强且快速,而深度模型精度高但训练和部署成本也高。然而,不同方法并非相互排斥,融合多种方法的集成框架也能进一步提高性能,如将启发式得分作为特征供GNN模型参考,或者将深度模型产出的结果与符号规则结合。在大数据时代,网络规模日益庞大、结构日益复杂,链接预测依然是一个充满挑战又充满机遇的研究课题。展望未来,随着对图结构深层模式的挖掘和更强大模型的引入,链接预测将在社交推荐、知识发现和科学研究等领域发挥更大的作用。研究者将持续推动这一领域的发展,使模型更精确、更高效、更智能地为我们揭示网络中隐含的关联。
参考文献:
[1]Arrar, D. et al. (2023). A comprehensive survey of link prediction methods. J. Supercomputing, 3(2024).
[2]Liben-Nowell, D. & Kleinberg, J. (2007). The link prediction problem for social networks. J. Am. Soc. Inf. Sci. Technol., 58(7): 1019–1031.
[3]Adamic, L. A. & Adar, E. (2003). Friends and neighbors on the web. Social Networks, 25(3): 211–230.
[4]Lichtenwalter, R. N. et al. (2010). New perspectives and methods in link prediction. KDD 2010.
[5]Backstrom, L. & Leskovec, J. (2011). Supervised random walks: Predicting and recommending links in social networks. WSDM 2011.
[6]Kunegis, J. & Lommatzsch, A. (2009). Learning spectral graph transformations for link prediction. ICML 2009.
[7]Menon, A. K. & Elkan, C. (2011). Link prediction via matrix factorization. ECML-PKDD 2011.
[8]Perozzi, B. et al. (2014). DeepWalk: Online learning of social representations. KDD 2014.
[9]Grover, A. & Leskovec, J. (2016). node2vec: Scalable feature learning for networks. KDD 2016.
[10]Kipf, T. N. & Welling, M. (2016). Variational graph auto-encoders. NIPS 2016 Workshop on Bayesian Deep Learning.
[11]Zhang, M. & Chen, Y. (2018). Link prediction based on graph neural networks. NeurIPS 2018.
[12]Yun, S. et al. (2021). Graph Transformer Networks. NeurIPS 2021.
[13]Wang, D. et al. (2022). MM-Transformer: A Transformer-Based Knowledge Graph Link Prediction Model That Fuses Multimodal Features. Symmetry, 14(8): 961.
[14]Takeda, R. et al. (2023). Link Prediction Based on Large Language Model and Knowledge Graph Retrieval under Open-World and Resource-Restricted Environment. IJCKG 2023.