图卷积网络（GCN）运行细节

最新推荐文章于 2024-12-25 13:08:37 发布

原创最新推荐文章于 2024-12-25 13:08:37 发布 · 1.1k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #深度学习 #机器学习 #图论

图神经网络同时被 3 个专栏收录

1 篇文章

订阅专栏

图卷积网络

1 篇文章

订阅专栏

神经网络

1 篇文章

订阅专栏

图卷积网络运行细节

一、公式说明
二、实例假设
三、运行细节
四、附加说明

图1 图卷积网络

$f\left( X,A \right) = softmax(\widehat{A}\text{\ ReLU}\left( \widehat{A}\text{\ X}W^{(0)} \right)W^{(1)})...........(1)$

一、公式说明

式(1)就代表着一个单隐藏层的图卷积神经网络的数学模型。下面对这个公式中每个变量的含义进行说明：
其中 $\widehat{A}$ 是邻接矩阵的一个变体，但是本质上还是邻接矩阵，把它当邻接矩阵看就行，在整个图卷积网络运行过程中， $\widehat{A}$ 是不会变化的； $X$ 代表的就是输入的图结构中全部节点组合而成的特征矩阵； $W^{(0)}$ 是输入层 $C$ 与第1层隐藏层之间的连接权值矩阵, $W^{(1)}$ 是第1层隐藏层与输出层 $Z$ 之间的连接权值矩阵； $R e L U ()$ 和 $s o f t m a x ()$ 是激活函数，目的在于引入非线性； $\text{ReLU}\left( \widehat{A}\text{\ X}W^{(0)} \right)$ 这个整体就是输入图结构处在第1层隐藏层时，全部节点组合而成的特征矩阵，如果参照公式中 $W$ 的标号方法，那么 $\text{ReLU}\left( \widehat{A}\text{\ X}W^{(0)} \right) = X^{(1)}$ ，这样如果再叠加一层隐藏层，上面的公式怎么改也明了了。

二、实例假设

随机举个图结构的例子，如图2所示。

图2 图结构

那么邻接矩阵 $\widehat{A}$ 的维度就是 $\times 5$ （5个节点）。对于图2， $\widehat{A}$ 就为（考虑了归一化等等因素，其实节点之间的权值分配就相当于 $a_{\text{ij}} = \frac{1}{\sqrt{deg(v_{i})deg(v_{j})}}$ ， $a_{\text{ij}}$ 是节点i给节点j分配的权重，因为是无向图，所以是对称矩阵，其中 $deg(v_{i})$ 就是节点i的度）

$\widehat{A} =$ 在这里插入图片描述

假设取每个节点的特征为3个（假设分别为长度、宽度、高度）。那么 $X$ 的维度就是 $\times 3$ （5个节点、3个特征），假设 $X$ 为：

$X$ = 在这里插入图片描述

假设 $W^{(0)}$ 的维度为 $\times 3$ ，因为只有 $W^{(0)}$ 的维度是这样， $\text{ReLU}\left( \widehat{A}\text{\ X}W^{(0)} \right) = X^{(1)}$ 的维度才会跟 $X$ 的原本的维度（ $\times 3$ ）相同（当然你也可以选择不相同，比如你这次把 $W^{(0)}$ 的维度为 $\times 10$ ，那么下一层 $W^{(1)}$ 的第一维必须是 $10$ ,不然矩阵没法乘），假设 $W^{(0)}$ 被随机初始化为：

$W^{(0)} =$ 在这里插入图片描述， $W^{(1)} =$

根据 $W^{(0)}$ 的假设， $W^{(1)}$ 的第一维度必须为3，假设这些节点的类别总共只有两类，那么 $W^{(1)}$ 的第二个维度就为2，那么 $W^{(1)}$ 是一个 $\times 2$ 的矩阵，这样的话最终输出 $Z$ 就是一个 $\times 2$ ，每一行代表对应的节点，每一列代表所属类别的概率，比如第一列代表属于类别1的概率，第二列代表属于类别2的概率。

三、运行细节

下面，根据式（1）对图卷积网络的运行过程进行步骤分解。

（1） $\widehat{A}\text{\ X}$

经过 $\widehat{A}\text{\ X}$ 操作之后，相当于已经对整个图的每个节点做了一次卷积操作，即每个节点都包含了邻居节点的部分信息，也就是信息融合。具体为节点1包含了节点2、3的部分信息，节点2包含了节点1、3的部分信息，节点3包含了节点2、3、4、5的部分信息，节点4包含了节点3、5的部分信息，节点5包含了节点3、4的部分信息。 $\widehat{A}\text{\ X}$ 相乘之后的结果为

在这里插入图片描述

（2） $\widehat{A}\text{\ X}W^{(0)}$

$W^{(0)}$ 是为了让图卷积网络更加关注重要的某些特征，忽视某些次要特征（与信号处理中的滤波器的意义差不多）。 $\widehat{A}\text{\ X}$ 乘以 $W^{(0)}$ 的结果为：

在这里插入图片描述

（3） $\text{ReLU}\left( \widehat{A}\text{\ X}W^{(0)} \right)$

再经过 $R e L U ()$ 函数引入非线性，得到（跟上一步的结果一样，是因为 $R e L U ()$ 函数的形式如式（2）所示）， $\text{\ ReLU}\left( \widehat{A}\text{\ X}W^{(0)} \right)$ 的运行结果为

在这里插入图片描述
(2)

（4） $\ \widehat{A}\text{\ ReLU}\left( \widehat{A}\text{\ X}W^{(0)} \right)$

这一步与步骤（1）类似，不同的是通过步骤（1），各个节点包含了一阶邻居的部分信息（信息融合），而通过步骤（4），每个节点还包含了二阶邻居的信息。 $\widehat{A}\text{\ ReLU}\left( \widehat{A}\text{\ X}W^{(0)} \right)$ 的运行结果为

在这里插入图片描述

（5） $\widehat{A}\text{\ ReLU}\left( \widehat{A}\text{\ X}W^{(0)} \right)W^{(1)}$

$W^{(1)}$ 和 $W^{(0)}$ 的目的是类似的，为了让图卷积网络更加关注重要的某些特征，忽视某些次要特征。 $\widehat{A}\text{\ ReLU}\left( \widehat{A}\text{\ X}W^{(0)} \right)W^{(1)}$ 的运算结果为：

在这里插入图片描述

（6） $softmax(\widehat{A}\text{\ ReLU}\left( \widehat{A}\text{\ X}W^{(0)} \right)W^{(1)})$

对每一行再进行softmax，将其映射到(0,1)之间,一般是取最大值为类别。那么在这里就是每个节点都是类别1。本步骤运行的结果为

在这里插入图片描述

针对softmax再打个比分，假设有一个向量 $\lbrack 0.5;1.7; - 0.3\rbrack$ ，那么经过softmax之后，每个元素的值为[0.2097,0.6961,0.0942]。Softmax()函数的实际运算过程（以0.2097为例）：

0.2097= $\frac{e^{V_{1}}}{\sum_{j}^{}e^{V_{j}}} = \frac{e^{0.5}}{e^{0.5} + e^{1.7} + e^{- 0.3}}$ 。softmax的公式为： $S_{i} = \frac{e^{V_{i}}}{\sum_{j}^{}e^{V_{j}}}$

（7）误差反向传播更新权值 $W^{(0)}$ 、 $W^{(1)}$

对softmax后的矩阵取对数的结果如下所示（softmax后的值都是（0，1）之间，那么取对数后的取值范围为（ $\infty$ ，0））。因为是半监督分类，假设节点1（类别1）和节点5（类别2）已知类别，假设损失函数为NLL_Loss，NLL_Loss的结果就是把输出与Label对应的那个值拿出来，再去掉负号，再求均值。那么在这里就是（0.5777+0.9401）/2=0.7589，（只计算节点1、5，是因为只知道这两个类别的Label）然后再对这个误差进行反向传递，更新权值 $W^{(0)}$ 、 $W^{(1)}$ （具体的更新过程数据推导太多，就不详细说明了，反正就是类似梯度下降法）。

在这里插入图片描述

再进行步骤（1-7），直到达到终止条件。

四、附加说明

关于步骤（6）、（7），我再进一步说明一下为什么这样能有效的利用误差更新权值。考虑一个完美情况，在某一迭代步时，经过softmax后，节点1、5分别为[0.9999,0.0001]、[0.0001,
0.9999]，那么取对数之后就为[-0.0001, -9.2103]、[-9.2103,-0.0001],那么根据损失函数NLL_Loss得到的误差为(0.0001+0.0001)/2=0.0001，这个时候误差就很小了，迭代可能就终止了。

还有一个问题就是，大家可以发现，每次节点1、2以及节点4、5的值是向同的，这是因为节点1、2的邻居节点是相同的（如果把自己也算上的话，那他们的邻居都是节点1、2、3）节点4、5同理。

总而言之，图卷积网络做的事情就是：每个节点融合邻居节点的部分信息，再引入非线性，然后对带标签数据的误差（预测值和真实值之间的误差，预测值是由神经网络输出的）进行反向传递，以更新各隐藏层的权值。

图注意力神经网络与图卷积网络的最大区别就是：图卷积网络的邻接矩阵值是永远不变的，即 $a_{\text{ij}} = \frac{1}{\sqrt{deg(v_{i})deg(v_{j})}}$ ，而在图注意力神经网络里，这个 $a_{\text{ij}}$ 是会更新的，更新过程就是依靠注意力机制。
，即 $a_{\text{ij}} = \frac{1}{\sqrt{deg(v_{i})deg(v_{j})}}$ ，而在图注意力神经网络里，这个 $a_{\text{ij}}$ 是会更新的，更新过程就是依靠注意力机制。