CS224W-06：图神经网络一_network similarity-优快云博客

本文链接：https://blog.youkuaiyun.com/morgan777/article/details/117605686

图神经网络一

图机器学习需要解决的任务有：

节点分类 (Node classification) ：预测每个节点的类型
链接预测 (Link prediction)：预测两个节点是否相连
社区检测 (Community detection)：检测密集连接的节点聚类
网络相似性检测 (Network similarity)：计算两个网络的相似程度

前面章节介绍的是解决这些问题的传统机器学习方法，本节主要介绍图神经网络 (GNN) 的基本思路和训练基本流程。

基本方法：消息传递和聚合

图给我们的信息有：

$V$ 节点集合
$\bf A$ 节点的邻接矩阵
$\bf X \in \R^{m \times |V|}$ 节点特征
$N (v)$ 节点的的邻域节点集合

回顾之前的节点嵌入的内容，传统机器学习方法构造的是浅层次的节点嵌入，而深度学习可以看作是设计深层提取器 (Deep Encoder) 计算深层嵌入。一个比较直观的想法是将邻接矩阵 $\bf A$ 输入一个多层神经网络来提取节点嵌入，示意图如下。这种方法缺点有：参数过多；不适用于不同大小的图；对节点顺序敏感（一旦改变节点顺序，预测结果就会不同）。

我们希望构建的神经网络参数量适当，能够泛化到不同大小的图，并且对节点顺序不敏感，也就是对节点有置换不变性 (Permutation invariant)。在卷积神经网络 (CNN) 中，每一个卷积核的参数对于当前特征图的每个像素是共享的，卷积操作实际上实对某个像素领域做加权平均，整个神经网络获取的信息是随着网络的加深而从局部逐渐扩展到全局。同样地，在图神经网络中，节点的特征也可以是由局部邻域节点和自身特征计算而来，在每一层图神经网络的节点嵌入都是通过某种方式综合节点及其邻域节点特征而得到的。

如下图所示，节点之间的虚线表示消息传递，方框内表示消息聚合，聚合方式使用神经网络。

一种比较简单的聚合方式是对领域节点消息做平均，并加上节点自身的特征，得到当前层神经网络的节点嵌入。公式如下
$h_v^{(l+1)} = \sigma \left(\mathbf W_l \sum_{u \in N(v)} \frac {h_u^{(l)}}{|N(v)|} + \mathbf B_l h_v^{(l)} \right) , \quad \forall l \in \{0, 1, 2, ..., L-1 \}$
其中 $h_v^{(l)}$ 表示第 $l$ 层神经网络的节点嵌入，初始层节点嵌入为节点特征 $h_v^{(0)} = x_v$ ， $\mathbf W_l$ 和 $\mathbf B_l$ 为可学习参数， $N (v)$ 为领域节点， $\sigma$ 为非线性激活函数。课程课件中的图可以做个参考。

对于所有节点， $\mathbf W_l$ 和 $\mathbf B_l$ 的参数是共享的，用 $\mathbf H^{(l)}$ 表示所有节点的嵌入矩阵， $\mathbf D$ 为节点度矩阵， $\mathbf A$ 为邻接矩阵，那么节点聚合的矩阵形式为
$\mathbf H^{(l+1)} = \sigma (\tilde{\mathbf A} \mathbf H^{(l)} \mathbf W_l^T + \mathbf H^{(l)} \mathbf B_l^T)$
其中 $\tilde{\mathbf A} = \mathbf D^{-1} \mathbf A$

训练图神经网络

对于有监督学习，以节点分类为例，GNN 最后一层输出的节点嵌入为 $z_v$ ，损失函数通常为交叉熵损失函数，二分类计算公式如下
$\mathcal L = -\sum_{v \in \mathbf V} y_v \log(\sigma(z_v^T \theta)) +(1-y_v) \log(1 - \sigma(z_v^T \theta))$
对于无监督学习，节点没有标签，以结构相似性为学习目标，同样使用交叉熵损失函数，公式为
$\mathcal L = \sum_{z_u, z_v} \text{CE}(y_{u, v}, \text{DEC}(z_u, z_v))$
节点相似性度量方法，可以随机游走 (deep walk, node2vec, struc2vec) 或者矩阵分解的方法。