图卷积神经网络(GCN)

最新推荐文章于 2025-10-09 10:22:16 发布

原创最新推荐文章于 2025-10-09 10:22:16 发布 · 490 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#cnn #机器学习 #深度学习

人工智能专栏收录该内容

41 篇文章

订阅专栏

本文介绍了图卷积神经网络（GCN）的基本原理，包括谱卷积的定义、切比雪夫近似及其在GCN中的应用。GCN通过局部一阶近似谱卷积学习节点特征，简化了计算并能处理大规模图数据。在图数据的分类任务中，GCN表现出优越性能，特别适合引用网络和知识图谱分析。文中还提供了GCN的实现代码链接，用于理解其在网络中信息传播的过程。

背景

Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. ICLR, 2017.

模型

给定一个过滤器 $fθ=diag(θ){f_{\bf{\theta }}} = {\rm{diag}}({\bf{\theta }})$ ，考虑信号 $x∈Rd{\bf{x}} \in {\mathbb{R}^d}$ ，并且 $θ∈Rd{\bf{\theta }} \in {\mathbb{R}^d}$ ， $d$ 表示向量的纬度。在图上的光谱卷积被定义为
${f_{\bf{\theta }}} * {\bf{x}} = {\bf{M}}{f_{\bf{\theta }}}{{\bf{M}}^{\rm{T}}}{\bf{x}}$
$M{\bf{M}}$ 是归一图拉普拉斯的特征向量矩阵。归一化的图拉普拉斯被表示为
${\bf{L}} = {\bf{I}} - {{\bf{D}}^{ - \frac{1}{2}}}{\bf{A}}{{\bf{D}}^{ - \frac{1}{2}}} = {\bf{M}}\Lambda {{\bf{M}}^{\rm{T}}}$
$Λ\Lambda$ 表示特征值的对角矩阵， $MTx{{\bf{M}}^{\rm{T}}}{\bf{x}}$ 是信号 $x{\bf{x}}$ 的傅里叶域。

$fθ(Λ){f_{\bf{\theta }}}(\Lambda )$ 由于计算 $L{\bf{L}}$ 的特征分解花费的计算资源是比较昂贵的，为解决这个问题，可以对 $fθ(Λ){f_{\bf{\theta }}}(\Lambda )$ 进行近似操作，近似后，被定义为：
${f_{{\bf{\theta '}}}}(\Lambda ) \approx \sum\limits_{k = 0}^K {{{\theta '}_k}{{\rm{C}}_k}(\tilde \Lambda )}$
$θ′∈RK{\bf{\theta '}} \in {\mathbb{R}^K}$ 是一个切比雪夫系数组成的向量。 $Ck(⋅){{\rm{C}}_k}( \cdot )$ 被定义为：
${{\rm{C}}_k}(x) = 2x{{\rm{C}}_{k - 1}}(x) - {{\rm{C}}_{k - 2}}(x)$
其中， $C0(x)=1{{\rm{C}}_0}(x) = 1$ ， $C1(x)=x{{\rm{C}}_1}(x) = x$ 。

我们定义的过滤器 $fθ′{f_{{\bf{\theta '}}}}$ 对于信号 $x{\bf{x}}$ 的卷积定义为：
${f_{{\bf{\theta '}}}} * {\bf{x}} \approx \sum\limits_{k = 0}^K {{{\theta '}_k}{{\rm{C}}_k}({\bf{\tilde L}})} {\bf{x}}$
$L~=2λmax⁡L−I{\bf{\tilde L}} = \frac{2}{{{\lambda _{\max }}}}{\bf{L}} - {\bf{I}}$ 。在GCN中 $λmax⁡{\lambda _{\max }}$ 被近似等于2。
通过 $λmax⁡{\lambda _{\max }}$ 的近似操作，我们可以得到
${\bf{\tilde L}} = {\bf{L}} - {\bf{I}}$
所以可以得到
${f_{{\bf{\theta '}}}} * {\bf{x}} \approx {\theta '_0}{\bf{x}} + {\theta '_1}({\bf{L}} - {\bf{I}}){\bf{x}} = {\theta '_0}{\bf{x}} - {\theta '_1}{{\bf{D}}^{ - \frac{1}{2}}}{\bf{A}}{{\bf{D}}^{ - \frac{1}{2}}}{\bf{x}}$
为更好的对参数进行约束，因此可以重新表达为
${f_{{\bf{\theta '}}}} * {\bf{x}} \approx \theta ({\bf{I}} + {{\bf{D}}^{ - \frac{1}{2}}}{\bf{A}}{{\bf{D}}^{ - \frac{1}{2}}}){\bf{x}}$
值得注意的是 $θ0′{\theta '_0}$ ，$ - {\theta '_1}$都可以被表达为 $θ\theta$ 。为缓解梯度消失的问题，图卷积神经网络中引入一个重新归一化的技巧，将 $I+D−12AD−12{\bf{I}} + {{\bf{D}}^{ - \frac{1}{2}}}{\bf{A}}{{\bf{D}}^{ - \frac{1}{2}}}$ 改写为 $D~−12A~D~−12{{\bf{\tilde D}}^{ - \frac{1}{2}}}{\bf{\tilde A}}{{\bf{\tilde D}}^{ - \frac{1}{2}}}$ 。

Graph Convolution Neural Networks ，给定输入 $G(V,E){\mathcal G}({\mathcal V},{\mathcal E})$ ，输入节点的特征表示为 $xv{{\bf{x}}_v}$ , $∀v∈V\forall v \in {\mathcal V}$ ， $∀u∈N(v)\forall u \in {\mathcal N}(v)$ , 表示 $v$ 的邻接节点。我们重新初始化多维度的向量权重。特征矩阵被表示为 $X{\bf{X}}$ ， $X∈Rn×d{\bf{X}} \in {\mathcal{R}^{n \times d}}$ 。对于无向图表示，我们使用 $A{\bf{A}}$ 表示邻接矩阵的连接关系。其中， $A^=D~−12A~D~−12{\bf{\hat A}} = {{\bf{\tilde D}}^{ - \frac{1}{2}}}{\bf{\tilde A}}{{\bf{\tilde D}}^{ - \frac{1}{2}}}$ ，${{\bf{\tilde D}}{ii}} = \sum\nolimits_j {{{{\bf{\tilde A}}}{ij}}} $ ， $A~=A+I{\bf{\tilde A}} = {\bf{A}} + {\bf{I}}$ 。GCN在网络中信息的传播可以被表述为
$H(l+1)=σ(A^H(l)W(l)) {{\bf{H}}^{(l + 1)}} = \sigma ({\bf{\hat A}}{{\bf{H}}^{(l)}}{{\bf{W}}^{(l)}})$
$H(0)=X{{\bf{H}}^{(0)}} = {\bf{X}}$ ， $σ(⋅)\sigma ( \cdot )$ 表示为ReLu激活函数。

图卷积神经网络通过局部一阶近似谱卷积得到一种新的卷积结构，这种卷积结构可以更好的学习节点特征的嵌入，并在引文网络和知识图谱的数据集中达到更优异的性能。在图卷积网络中，邻接矩阵与特征的卷积可在网络训练之前被计算，这样可以更少的引入网络的计算量。除此以外，图卷积网络使用全部样本计算梯度，因此可以使用全部邻域进行卷积。对于批量样本训练时，仅需要考虑部分邻域卷积。