文献阅读15期：Deep Learning on Graphs: A Survey - 4_graph time-series modeling in deep learning: a sur-优快云博客

本文链接：https://blog.youkuaiyun.com/oidahdsah0/article/details/117630072

本文深入探讨了图深度学习中的提升与讨论，包括注意力机制如Graph Attention Network (GAT)，残差和跳连在解决深层GCN问题中的应用，边特征的处理方法，采样技术如GraphSAGE和FastGCN，问题推理在归纳学习中的挑战，以及理论分析，如GCNs的拉普拉斯平滑和低通滤波性质。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

[ 文献阅读·综述 ] Deep Learning on Graphs: A Survey [1]

推荐理由：图神经网络的survey paper，在很多的领域展现出了独特的作用力，分别通过GRAPH RNN（图循环网络）、GCN（图卷积）、GRAPH AUTOENCODERS（图自编码器）、GRAPH REINFORCEMENT LEARNING（图强化学习模型）、GRAPH ADVERSARIAL METHODS（图对抗模型）等五个类型的模型进行阐述，可以让大家对图神经网络有一个整体的认识。

4.3 提高与探讨

这节主要讨论其他的一些可以被应用到图深度学习上的方法。

4.3.1.注意力机制

在之前的方法中，大部分图图计算过程中，近邻节点的影响非常大，但这些节点影响的方式是实现制定好的，并非训练得来的。Graph attention network (GAT)引入了一种调整卷及操作的机制：
$\mathbf{h}_{i}^{l+1}=\rho\left(\sum_{j \in \hat{\mathcal{N}}(i)} \alpha_{i j}^{l} \mathbf{h}_{j}^{l} \Theta^{l}\right)\tag{32}$
其中， $\alpha_{i j}^{l}$ 便是 $l^{t h}$ 层中指节点 $v_{i}$ 对节点 $v_{j}$ 的注意程度：
$\alpha_{i j}^{l}=\frac{\exp \left(\text { LeakyReLU }\left(\mathcal{F}\left(\mathbf{h}_{i}^{l} \Theta^{l}, \mathbf{h}_{j}^{l} \Theta^{l}\right)\right)\right)}{\sum_{k \in \hat{\mathcal{N}}(i)} \exp \left(\text { LeakyReLU }\left(\mathcal{F}\left(\mathbf{h}_{i}^{l} \Theta^{l}, \mathbf{h}_{k}^{l} \Theta^{l}\right)\right)\right)}\tag{33}$
下图展示了一种多头注意力机制：
至于其他的注意力机制还有两级注意机制，这种机制兼顾了节点级别和语义级别的注意。

4.3.2.残差和跳连

一般来说GCN的层数不宜过多，一般2-3层为佳。这个问题可能是由于训练深度GCN的实际困难或过度平滑问题造成的。比如所有深层的节点都是同样的表达。
为了解决这一问题，残差连接被引入GCN：
$\mathbf{H}^{l+1}=\rho\left(\tilde{\mathbf{D}}^{-\frac{1}{2}} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-\frac{1}{2}} \mathbf{H}^{l} \Theta^{l}\right)+\mathbf{H}^{l}\tag{34}$
Column network (CLN)采用了一种近似的残差连接，但包含有可训练权重：
$\mathbf{h}_{i}^{l+1}=\boldsymbol{\alpha}_{i}^{l} \odot \widetilde{\mathbf{h}}_{i}^{l+1}+\left(1-\boldsymbol{\alpha}_{i}^{l}\right) \odot \mathbf{h}_{i}^{l}\tag{35}$
其中，权重的计算方式为：
$\boldsymbol{\alpha}_{i}^{l}=\rho\left(\mathbf{b}_{\alpha}^{l}+\mathbf{\Theta}_{\alpha}^{l} \mathbf{h}_{i}^{l}+\mathbf{\Theta}_{\alpha}^{\prime l} \sum_{j \in \mathcal{N}(i)} \mathbf{h}_{j}^{l}\right)\tag{36}$
受个性化PageRank的影响，PPNP定义了一种含有传送信息至初始层的图卷积：
$\mathbf{H}^{l+1}=(1-\alpha) \tilde{\mathbf{D}}^{-\frac{1}{2}} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-\frac{1}{2}} \mathbf{H}^{l}+\alpha \mathbf{H}^{0}\tag{37}$
Jumping knowledge networks (JK-Nets)，如下图所示，它在做aggregation的时候，不仅agg最深的那层，它把所有层综合起来做agg：

其数学表达如下：
$\mathbf{h}_{i}^{\text {final }}=\operatorname{AGGREGATE}\left(\mathbf{h}_{i}^{0}, \mathbf{h}_{i}^{1}, \ldots, \mathbf{h}_{i}^{L}\right)\tag{38}$

4.3.3.边特征

Neural FPs中，对不同度的节点，有不同的训练参数，这对应着分子图中键的隐式边特征，然后对结果进行总结。
CLN针对异构图中的不同边类型训练不同的参数，并对结果进行平均。
边缘条件卷积（ECC）也训练了不同的参数，并将其应用于图形分类。关系GCNs（R-GCNs）对知识图采用相似的思想，针对不同的关系类型训练不同的权值。然而，这些方法只适用于有限数量的离散边缘特征。
DCNN提出了另一种方法，将每条边转换成一个连接到该边的头部和尾部节点的节点。在此转换之后，可以将边特征视为节点特征。
LGCN构造了边缘关系图：
$\mathbf{B}_{i \rightarrow j, i^{\prime} \rightarrow j^{\prime}}=\left\{\begin{array}{ll} 1 & \text { if } j=i^{\prime} \text { and } j^{\prime} \neq i \\ 0 & \text { otherwise. } \end{array}\right.\tag{39}$
另外也有四种不同类型关系函数被定义出：
$\begin{gathered} \mathbf{h}_{i}^{l^{\prime}}=\mathcal{F}_{N N}\left(\mathbf{h}_{i}^{0}, \mathbf{h}_{i}^{1}, \ldots, \mathbf{h}_{i}^{l}\right), \mathbf{h}_{i}^{l^{\prime \prime}}=\mathcal{F}_{E N}\left(\left\{\mathbf{e}_{i j}^{l} \mid j \in \mathcal{N}(i)\right\}\right) \\ \mathbf{e}_{i j}^{l^{\prime}}=\mathcal{F}_{E E}\left(\mathbf{e}_{i j}^{0}, \mathbf{e}_{i j}^{1}, \ldots, \mathbf{e}_{i j}^{l}\right), \mathbf{e}_{i j}^{l^{\prime \prime}}=\mathcal{F}_{N E}\left(\mathbf{h}_{i}^{l}, \mathbf{h}_{j}^{l}\right) \\ \mathbf{h}_{i}^{l+1}=\mathcal{F}_{N N}\left(\mathbf{h}_{i}^{l^{\prime}}, \mathbf{h}_{i}^{l^{\prime \prime}}\right), \mathbf{e}_{i j}^{l+1}=\mathcal{F}_{E E}\left(\mathbf{e}_{i j}^{l^{\prime}}, \mathbf{e}_{i j}^{l^{\prime \prime}}\right) \end{gathered}\tag{40}$

4.3.4.采样方法

效率是大规模图情况下训练GCN时一个非常关键的瓶颈，一般而言，很多GCN都会采用近邻点聚合方案。
由于很多图都遵循幂律分布，所以近邻节点数扩展极为迅速，为解决这个问题，两种采样方法被提出：近邻采样法和分层采样法，如下图所示：
近邻采样法：
- GraphSAGE在训练时每次采样都只采样固定数量的近邻节点。
- PinSage提出一种使用Random Walks的近邻采样法，其改进包括协调CPU和GPU以及一个Map-Reduce推理管道，等等。而且它能够处理一个十亿级别的图。（厉害了）
- StochasticGCN进一步提出通过使用最后Batches的历史激活作为控制变量来减少抽样方差，允许在理论上保证任意小的样本量。
分层采样法：FastGCN没有对节点的邻居进行采样，而是采用了一种不同的策略：通过将节点解释为i.i.d.样本，并将图卷积解释为概率测度下的积分变换，对每个卷积层中的节点进行采样（即逐层采样）。FastGCN还表明，通过标准化程度对节点进行采样可以减少方差，从而获得更好的性能。将[69]进一步提出的采样节点调整到以其顶层为条件的较低层中；这种方法更具适应性，适用于显式减少方差。

4.3.5.问题推理

GCNs的另一个重要方面是它们是否可以应用于归纳设置，即在一组节点或图上进行训练，并在另一组看不见的节点或图上进行测试。原则上，这一目标是通过学习给定特征上的映射函数来实现的，这些特征不依赖于图基，并且可以在节点或图之间传递。在GraphSAGE、GAT、GaAN和FastGCN中验证了感应设置。然而，现有的归纳gcn只适用于具有显式特征的图。如何对没有明确特征的图进行归纳学习，通常称为样本外问题，在文献中仍然是一个很大的问题。

4.3.6.理论分析

为了理解GCNs的有效性，人们提出了一些理论分析，可以分为三类：节点聚焦任务、图形聚焦任务和一般分析。
对于以节点为中心的任务，Li等人首先利用一种特殊的拉普拉斯平滑方法分析了GCNs的性能，使得同一簇中的节点特征相似。原始拉普拉斯平滑运算公式如下：
$\mathbf{h}_{i}^{\prime}=(1-\gamma) \mathbf{h}_{i}+\gamma \sum_{j \in \mathcal{N}(i)} \frac{1}{d_{i}} \mathbf{h}_{j}\tag{41}$
最近，Wu等人从信号处理的角度分析了GCN。通过将节点特征视为图形信号，他们表明等式（13）基本上是一个固定的低通滤波器。利用这一观点，他们提出了一种极为简化的图卷积（SGC）体系结构，通过去除所有非线性并将学习参数折叠成一个矩阵：
$\mathbf{H}^{L}=\left(\tilde{\mathbf{D}}^{-\frac{1}{2}} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-\frac{1}{2}}\right)^{L} \mathbf{F}_{V} \Theta\tag{42}$
作者表明，这种“非深度学习”GCN变体在许多任务中取得了与现有GCN相当的性能。前原诚司（Maehara）通过证明低通滤波操作没有使GCNs具备非线性流形学习能力来增强这一结果，并进一步提出了GFNN模型，通过在图卷积层之后添加MLP来弥补这一问题。
对于以图为中心的任务，Kipf和Welling以及SortPooling的作者都考虑了GCNs与图核之间的关系，例如Weisfeiler-Lehman（WL）核，它被广泛应用于图同构测试。他们表明，GCNs在概念上是WL核的一种推广，因为这两种方法都迭代地聚合来自节点邻居的信息。Xu等人通过证明WL核在区分图结构方面为GCNs提供了一个上界，从而形式化了这个想法。基于这一分析，他们提出了图同构网络（GIN），并证明了使用求和和和MLP的读出操作可以获得可证明的最大鉴别能力，即在图分类任务中的最高训练精度。
Scarselli等人的一般分析表明，具有不同活化函数的GCNs的Vapnik-Chervonenkis维数（VC-dim）与现有的RNNs具有相同的尺度。Chen等人对线性GCN的优化景观进行了分析，结果表明，在一定的简化条件下，任何局部最小值都相对接近全局最小值。Verma和Zhang分析了GCNs的算法稳定性和泛化界。结果表明，如果图卷积滤波器的最大绝对特征值与图的大小无关，则单层gcn满足一致稳定性的强概念。