文献阅读15期:Deep Learning on Graphs: A Survey - 4

本文深入探讨了图深度学习中的提升与讨论,包括注意力机制如Graph Attention Network (GAT),残差和跳连在解决深层GCN问题中的应用,边特征的处理方法,采样技术如GraphSAGE和FastGCN,问题推理在归纳学习中的挑战,以及理论分析,如GCNs的拉普拉斯平滑和低通滤波性质。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

[ 文献阅读·综述 ] Deep Learning on Graphs: A Survey [1]

推荐理由:图神经网络的survey paper,在很多的领域展现出了独特的作用力,分别通过GRAPH RNN(图循环网络)、GCN(图卷积)、GRAPH AUTOENCODERS(图自编码器)、GRAPH REINFORCEMENT LEARNING(图强化学习模型)、GRAPH ADVERSARIAL METHODS(图对抗模型)等五个类型的模型进行阐述,可以让大家对图神经网络有一个整体的认识。

4.3 提高与探讨

  • 这节主要讨论其他的一些可以被应用到图深度学习上的方法。

4.3.1.注意力机制

  • 在之前的方法中,大部分图图计算过程中,近邻节点的影响非常大,但这些节点影响的方式是实现制定好的,并非训练得来的。Graph attention network (GAT)引入了一种调整卷及操作的机制:
    h i l + 1 = ρ ( ∑ j ∈ N ^ ( i ) α i j l h j l Θ l ) (32) \mathbf{h}_{i}^{l+1}=\rho\left(\sum_{j \in \hat{\mathcal{N}}(i)} \alpha_{i j}^{l} \mathbf{h}_{j}^{l} \Theta^{l}\right)\tag{32} hil+1=ρjN^(i)αijlhjlΘl(32)
    其中, α i j l \alpha_{i j}^{l} αijl便是 l t h l^{t h} lth层中指节点 v i v_{i} vi对节点 v j v_{j} vj的注意程度:
    α i j l = exp ⁡ (  LeakyReLU  ( F ( h i l Θ l , h j l Θ l ) ) ) ∑ k ∈ N ^ ( i ) exp ⁡ (  LeakyReLU  ( F ( h i l Θ l , h k l Θ l ) ) ) (33) \alpha_{i j}^{l}=\frac{\exp \left(\text { LeakyReLU }\left(\mathcal{F}\left(\mathbf{h}_{i}^{l} \Theta^{l}, \mathbf{h}_{j}^{l} \Theta^{l}\right)\right)\right)}{\sum_{k \in \hat{\mathcal{N}}(i)} \exp \left(\text { LeakyReLU }\left(\mathcal{F}\left(\mathbf{h}_{i}^{l} \Theta^{l}, \mathbf{h}_{k}^{l} \Theta^{l}\right)\right)\right)}\tag{33} αijl=kN^(i)exp( LeakyReLU (F(hilΘl,hklΘl)))exp( LeakyReLU (F(hilΘl,hjlΘl)))(33)
  • 下图展示了一种多头注意力机制:
    在这里插入图片描述
  • 至于其他的注意力机制还有两级注意机制,这种机制兼顾了节点级别和语义级别的注意。

4.3.2.残差和跳连

  • 一般来说GCN的层数不宜过多,一般2-3层为佳。这个问题可能是由于训练深度GCN的实际困难或过度平滑问题造成的。比如所有深层的节点都是同样的表达。
  • 为了解决这一问题,残差连接被引入GCN:
    H l + 1 = ρ ( D ~ − 1 2 A ~ D ~ − 1 2 H l Θ l ) + H l (34) \mathbf{H}^{l+1}=\rho\left(\tilde{\mathbf{D}}^{-\frac{1}{2}} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-\frac{1}{2}} \mathbf{H}^{l} \Theta^{l}\right)+\mathbf{H}^{l}\tag{34} Hl+1=ρ(D~21A~D~21HlΘl)+Hl(34)
  • Column network (CLN)采用了一种近似的残差连接,但包含有可训练权重:
    h i l + 1 = α i l ⊙ h ~ i l + 1 + ( 1 − α i l ) ⊙ h i l (35) \mathbf{h}_{i}^{l+1}=\boldsymbol{\alpha}_{i}^{l} \odot \widetilde{\mathbf{h}}_{i}^{l+1}+\left(1-\boldsymbol{\alpha}_{i}^{l}\right) \odot \mathbf{h}_{i}^{l}\tag{35} hil+1=αilh il+1+(1αil)hil(35)
    其中,权重的计算方式为:
    α i l = ρ ( b α l + Θ α l h i l + Θ α ′ l ∑ j ∈ N ( i ) h j l ) (36) \boldsymbol{\alpha}_{i}^{l}=\rho\left(\mathbf{b}_{\alpha}^{l}+\mathbf{\Theta}_{\alpha}^{l} \mathbf{h}_{i}^{l}+\mathbf{\Theta}_{\alpha}^{\prime l} \sum_{j \in \mathcal{N}(i)} \mathbf{h}_{j}^{l}\right)\tag{36} αil=ρbαl+Θαlhil+ΘαljN(i)hjl(36)
  • 受个性化PageRank的影响,PPNP定义了一种含有传送信息至初始层的图卷积:
    H l + 1 = ( 1 − α ) D ~ − 1 2 A ~ D ~ − 1 2 H l + α H 0 (37) \mathbf{H}^{l+1}=(1-\alpha) \tilde{\mathbf{D}}^{-\frac{1}{2}} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-\frac{1}{2}} \mathbf{H}^{l}+\alpha \mathbf{H}^{0}\tag{37} Hl+1=(1α)D~21A~D~21Hl+αH0(37)
  • Jumping knowledge networks (JK-Nets),如下图所示,它在做aggregation的时候,不仅agg最深的那层,它把所有层综合起来做agg:
    在这里插入图片描述
    其数学表达如下:
    h i final  = AGGREGATE ⁡ ( h i 0 , h i 1 , … , h i L ) (38) \mathbf{h}_{i}^{\text {final }}=\operatorname{AGGREGATE}\left(\mathbf{h}_{i}^{0}, \mathbf{h}_{i}^{1}, \ldots, \mathbf{h}_{i}^{L}\right)\tag{38} hifinal =AGGREGATE(hi0,hi1,,hiL)(38)

4.3.3.边特征

  • Neural FPs中,对不同度的节点,有不同的训练参数,这对应着分子图中键的隐式边特征,然后对结果进行总结。
  • CLN针对异构图中的不同边类型训练不同的参数,并对结果进行平均。
  • 边缘条件卷积(ECC)也训练了不同的参数,并将其应用于图形分类。关系GCNs(R-GCNs)对知识图采用相似的思想,针对不同的关系类型训练不同的权值。然而,这些方法只适用于有限数量的离散边缘特征。
  • DCNN提出了另一种方法,将每条边转换成一个连接到该边的头部和尾部节点的节点。在此转换之后,可以将边特征视为节点特征。
  • LGCN构造了边缘关系图:
    B i → j , i ′ → j ′ = { 1  if  j = i ′  and  j ′ ≠ i 0  otherwise.  (39) \mathbf{B}_{i \rightarrow j, i^{\prime} \rightarrow j^{\prime}}=\left\{\begin{array}{ll} 1 & \text { if } j=i^{\prime} \text { and } j^{\prime} \neq i \\ 0 & \text { otherwise. } \end{array}\right.\tag{39} Bij,ij={10 if j=i and j=i otherwise. (39)
  • 另外也有四种不同类型关系函数被定义出:
    h i l ′ = F N N ( h i 0 , h i 1 , … , h i l ) , h i l ′ ′ = F E N ( { e i j l ∣ j ∈ N ( i ) } ) e i j l ′ = F E E ( e i j 0 , e i j 1 , … , e i j l ) , e i j l ′ ′ = F N E ( h i l , h j l ) h i l + 1 = F N N ( h i l ′ , h i l ′ ′ ) , e i j l + 1 = F E E ( e i j l ′ , e i j l ′ ′ ) (40) \begin{gathered} \mathbf{h}_{i}^{l^{\prime}}=\mathcal{F}_{N N}\left(\mathbf{h}_{i}^{0}, \mathbf{h}_{i}^{1}, \ldots, \mathbf{h}_{i}^{l}\right), \mathbf{h}_{i}^{l^{\prime \prime}}=\mathcal{F}_{E N}\left(\left\{\mathbf{e}_{i j}^{l} \mid j \in \mathcal{N}(i)\right\}\right) \\ \mathbf{e}_{i j}^{l^{\prime}}=\mathcal{F}_{E E}\left(\mathbf{e}_{i j}^{0}, \mathbf{e}_{i j}^{1}, \ldots, \mathbf{e}_{i j}^{l}\right), \mathbf{e}_{i j}^{l^{\prime \prime}}=\mathcal{F}_{N E}\left(\mathbf{h}_{i}^{l}, \mathbf{h}_{j}^{l}\right) \\ \mathbf{h}_{i}^{l+1}=\mathcal{F}_{N N}\left(\mathbf{h}_{i}^{l^{\prime}}, \mathbf{h}_{i}^{l^{\prime \prime}}\right), \mathbf{e}_{i j}^{l+1}=\mathcal{F}_{E E}\left(\mathbf{e}_{i j}^{l^{\prime}}, \mathbf{e}_{i j}^{l^{\prime \prime}}\right) \end{gathered}\tag{40} hil=FNN(hi0,hi1,,hil),hil=FEN({eijljN(i)})eijl=FEE(eij0,eij1,,eijl),eijl=FNE(hil,hjl)hil+1=FNN(hil,hil),eijl+1=FEE(eijl,eijl)(40)

4.3.4.采样方法

  • 效率是大规模图情况下训练GCN时一个非常关键的瓶颈,一般而言,很多GCN都会采用近邻点聚合方案。
  • 由于很多图都遵循幂律分布,所以近邻节点数扩展极为迅速,为解决这个问题,两种采样方法被提出:近邻采样法和分层采样法,如下图所示:
    在这里插入图片描述
  • 近邻采样法
    • GraphSAGE在训练时每次采样都只采样固定数量的近邻节点。
    • PinSage提出一种使用Random Walks的近邻采样法,其改进包括协调CPU和GPU以及一个Map-Reduce推理管道,等等。而且它能够处理一个十亿级别的图。(厉害了)
    • StochasticGCN进一步提出通过使用最后Batches的历史激活作为控制变量来减少抽样方差,允许在理论上保证任意小的样本量。
  • 分层采样法:FastGCN没有对节点的邻居进行采样,而是采用了一种不同的策略:通过将节点解释为i.i.d.样本,并将图卷积解释为概率测度下的积分变换,对每个卷积层中的节点进行采样(即逐层采样)。FastGCN还表明,通过标准化程度对节点进行采样可以减少方差,从而获得更好的性能。将[69]进一步提出的采样节点调整到以其顶层为条件的较低层中;这种方法更具适应性,适用于显式减少方差。

4.3.5.问题推理

  • GCNs的另一个重要方面是它们是否可以应用于归纳设置,即在一组节点或图上进行训练,并在另一组看不见的节点或图上进行测试。原则上,这一目标是通过学习给定特征上的映射函数来实现的,这些特征不依赖于图基,并且可以在节点或图之间传递。在GraphSAGE、GAT、GaAN和FastGCN中验证了感应设置。然而,现有的归纳gcn只适用于具有显式特征的图。如何对没有明确特征的图进行归纳学习,通常称为样本外问题,在文献中仍然是一个很大的问题。

4.3.6.理论分析

  • 为了理解GCNs的有效性,人们提出了一些理论分析,可以分为三类:节点聚焦任务、图形聚焦任务和一般分析。
  • 对于以节点为中心的任务,Li等人首先利用一种特殊的拉普拉斯平滑方法分析了GCNs的性能,使得同一簇中的节点特征相似。原始拉普拉斯平滑运算公式如下:
    h i ′ = ( 1 − γ ) h i + γ ∑ j ∈ N ( i ) 1 d i h j (41) \mathbf{h}_{i}^{\prime}=(1-\gamma) \mathbf{h}_{i}+\gamma \sum_{j \in \mathcal{N}(i)} \frac{1}{d_{i}} \mathbf{h}_{j}\tag{41} hi=(1γ)hi+γjN(i)di1hj(41)
  • 最近,Wu等人从信号处理的角度分析了GCN。通过将节点特征视为图形信号,他们表明等式(13)基本上是一个固定的低通滤波器。利用这一观点,他们提出了一种极为简化的图卷积(SGC)体系结构,通过去除所有非线性并将学习参数折叠成一个矩阵:
    H L = ( D ~ − 1 2 A ~ D ~ − 1 2 ) L F V Θ (42) \mathbf{H}^{L}=\left(\tilde{\mathbf{D}}^{-\frac{1}{2}} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-\frac{1}{2}}\right)^{L} \mathbf{F}_{V} \Theta\tag{42} HL=(D~21A~D~21)LFVΘ(42)
  • 作者表明,这种“非深度学习”GCN变体在许多任务中取得了与现有GCN相当的性能。前原诚司(Maehara)通过证明低通滤波操作没有使GCNs具备非线性流形学习能力来增强这一结果,并进一步提出了GFNN模型,通过在图卷积层之后添加MLP来弥补这一问题。
  • 对于以图为中心的任务,Kipf和Welling以及SortPooling的作者都考虑了GCNs与图核之间的关系,例如Weisfeiler-Lehman(WL)核,它被广泛应用于图同构测试。他们表明,GCNs在概念上是WL核的一种推广,因为这两种方法都迭代地聚合来自节点邻居的信息。Xu等人通过证明WL核在区分图结构方面为GCNs提供了一个上界,从而形式化了这个想法。基于这一分析,他们提出了图同构网络(GIN),并证明了使用求和和和MLP的读出操作可以获得可证明的最大鉴别能力,即在图分类任务中的最高训练精度。
  • Scarselli等人的一般分析表明,具有不同活化函数的GCNs的Vapnik-Chervonenkis维数(VC-dim)与现有的RNNs具有相同的尺度。Chen等人对线性GCN的优化景观进行了分析,结果表明,在一定的简化条件下,任何局部最小值都相对接近全局最小值。Verma和Zhang分析了GCNs的算法稳定性和泛化界。结果表明,如果图卷积滤波器的最大绝对特征值与图的大小无关,则单层gcn满足一致稳定性的强概念。

参考文献

[1] Zhang Z, Cui P, Zhu W. Deep learning on graphs: A survey[J]. IEEE Transactions on Knowledge and Data Engineering, 2020.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值