2017 LCLR - Semi-Supervised Classification with Graph Convolutional Networks

发呆的比目鱼

已于 2022-05-17 13:26:12 修改

阅读量311

点赞数 1

CC 4.0 BY-SA版权

分类专栏：图神经网络文章标签：深度学习机器学习计算机视觉

于 2022-05-16 23:39:38 首次发布

原文链接：https://blog.youkuaiyun.com/qq_41727666/article/details/84640549

图神经网络专栏收录该内容

62 篇文章

订阅专栏

该论文提出了图卷积网络（GCN）在处理图结构数据上的新方法，用于半监督学习。GCN通过图卷积实现节点特征的编码，模型在图的边数上线性扩展。作者探讨了傅里叶变换在图上的应用，以及如何利用拉普拉斯矩阵的特征向量进行图卷积。为了解决计算复杂性问题，引入了切比雪夫多项式近似，简化了卷积过程。实验表明，这种方法在引文网络和知识图数据集上显著优于现有技术，特别是在节点分类任务上。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Paper：https://arxiv.org/pdf/1609.02907.pdf

2017 LCLR - Semi-Supervised Classification with Graph Convolutional Networks

摘要

本文作者提出了一种可扩展的方法，用于在图结构数据上进行半监督学习，该方法基于一种直接作用于图的卷积神经网络的有效变体。通过图卷积的局部一阶近似激发卷积架构的选择。模型在图边缘数量上线性缩放，并学习对局部图结构和节点特征进行编码的隐层表示。在引文网络和知识图数据集上的大量实验中，证明了该方法在很大程度上优于相关方法。

模型

傅里叶变换
传统的傅里叶变换如下：

其中， $x (t)$ 是空域表示, $X (f)$ 是频域表示， $e^{-iwt}$ 是基函数
作者发现以 $e^{-iwt}$ 为基的拉普拉斯算子是：

对照 $AV=λVAV=\lambda V$ ，可以发现，傅里叶变换中的基其实对照过来是矩阵的特征向量，那么将矩阵替换成图拉普拉斯矩阵，就是： $LU=λULU=\lambda U$ ，那么这个 $U$ 应该也可以做为图傅里叶变换的基。

于是，作者定义图拉普拉斯矩阵的特征向量可以做图傅里叶变换的基，得到：

$f (i)$ 是第个 $i$ 点的信号， $λ\lambda$ 是特征值。

Graph中的快速卷积
使用神经网络模型 f ( X , A ) f(X,A)f(X,A) 对所有带标签节点进行基于监督损失的训练。

$X$ 为输入数据
$A$ 为图的邻接矩阵
在图的邻接矩阵上调整 $f()˙f(\dot)$ 将允许模型从监督损失 $L_0$ 中分配梯度信息，并使其能够学习所有节点（带标签或不带标签）的表示。

具有以下分层传播规则的多层图形卷积网络（GCN）：
其中：

$A~=A+IN\tilde{A}=A+I_N$ 为无向图G的带自环邻接矩阵
$I_N$ 为单位矩阵
$D~ij=∑jA~ij\tilde{D}_{ij}=\sum_{j}\tilde{A}_{ij}$
$W^{l}$ 为layer-specific可训练权重向量
$σ(.)\sigma(.)$ 为激活函数，例：ReLU
$Hl∈RN×DH^{l}\in R^{N \times D}$ 为第 $l^{th}$ 层的激活矩阵； $H^{0}=X$

第一种卷积

$x$ 为图节点的特征向量
$g_θ=diag(θ)$ 为卷积核，其中 $θθ\thetaθ$ 为参数
$U$ 为图的拉普拉斯矩阵 $L$ 的特征向量矩阵
- 其中拉普拉斯矩阵 $L=IN−D−12AD−12=UΛUTL=I_N-D^{-\frac{1}{2}}AD^{-\frac{1}{2}}=U\Lambda U^T$

可以看到，上面公式就是上面引用中第一代GCN所使用的卷积公式，作者在论文中也提到，这个公式的缺点在于计算太过复杂，卷积核的选取不合适，需要改进。

改进：第二种卷积
作者接下来说，有人提出一种卷积核设计方法，即 $gθ(Λ)g_{\theta}(\Lambda)$ 可以使用切比雪夫多项式 $T_k(x)$ 到 $K^{th}$ 的截断展开来近似。

切比雪夫多项式：
$T_k(x)=2xT_{k-}(x)-T_{k-2}(x)$
$T_0=1$
$T_1=x$

新的卷积核：

$Λ~=2Λ/λmax−IN\tilde{\Lambda}=2\Lambda/\lambda_{max}-I_N$
$λmax\lambda_{max}$ 是 $L$ 的最大特征值
$θ′∈Rk\theta ' \in R_k$ 是切比雪夫系数的矢量

$L~=2L/λmax−IN\tilde{L}=2L/\lambda_{max}-I_N$
此公式为拉普拉斯算子中的 $K^{th}$ 阶多项式，即它仅取决于离中央节点最大 $K$ 步的节点。

可以看到，公式(5)与上面引文中的第二代GCN用到的卷积公式非常相似，最终都将参数简化到了 $K$ 个，并不再需要做特征分解，直接用拉普拉斯矩阵 $L$ 进行变换，计算复杂性大大降低。

但本文使用了切比雪夫多项式 $T_k(x)$ ，这是与上面引文中提到的第二代GCN中的卷积公式的不同点。

线性模型
K=1：2个参数的模型
现在我们可以通过堆叠多个形式为公式(5)的卷积层来建立一个GCN模型。

首先，我们将分层卷积操作限制为 $K = 1$ ，即关于 $L$ 是线性的，因此在拉普拉斯谱上有线性函数。

在GCN的这个线性公式中，我们进一步近似 $λmax≈2\lambda_{max}\approx 2$ 们可以预测到GCN的参数能够在训练中适应这一变化，此时公式(5)将简化为下式：

此公式具有两个自由参数： $θ0′\theta_0 '$ 和 $θ1′\theta_1 '$ ,滤波器参数将被整个图共享
连续应用这种形式的滤波器，可以有效的卷积节点的 $k^{th}$ 阶邻域，其中 $k$ 是模型中连续滤波操作或卷积层的数目。

简化：1个参数的模型
令 $θ=θ0′=−θ1′\theta=\theta_0'=-\theta_1'$ ,将两个参数化为单参数 $θ\theta$ ,得到卷积公式如下：

注意 $IN+D−12AD−12I_N+D^{-\frac{1}{2}}AD^{-\frac{1}{2}}$ 拥有范围为 $[0, 2]$ 的特征值，这将会导致数值不稳定性和梯度爆炸/消失。因此我们介绍下面的归一化技巧：
$IN+D−12AD−12→D~AD~−12I_N+D^{-\frac{1}{2}}AD^{-\frac{1}{2}}\rightarrow\tilde{D}A\tilde{D}^{-\frac{1}{2}}$

$A~=A+IN\tilde{A}=A+I_N$
$D~ij=∑jAij~\tilde{D}_{ij}=\sum_{j}\tilde{A_{ij}}$

推广：特征映射公式
将该定义推广到具有 $C$ 个输入通道（即每个节点的 $C$ 维特征向量）的信号 $\in R^{N \times C}$ , 和 $F$ 个滤波器，则特征映射（feature maps）如下：
$Z=D~−12A~D~−12Z=\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}$

$Θ∈RC×F\Theta \in R^{C \times F}$ 是滤波器参数矩阵
$\in R^{N \times F}$ 是卷积后的信号矩阵

半监督节点分类

一个整体的多层半监督GCN模型如下图所示：

上图中，左(a)是一个GCN网络示意图，在输入层拥有 $C$ 个输入，中间有若干隐藏层，在输出层有 $F$ 个特征映射；图的结构（边用黑线表示）在层之间共享；标签用 $Y_i$ 表示。
右(b)是一个两层GCN在Cora数据集上（使用了5%的标签）训练得到的隐藏层激活值的形象化表示，颜色表示文档类别。