【神经网络学习日记(8)】一些图神经网络的简单介绍（GCN、GAT、rGCN）

Spark_lr

已于 2024-10-02 12:36:55 修改

阅读量1.6k

点赞数 18

文章标签：神经网络深度学习卷积神经网络 transformer

于 2024-09-17 13:36:06 首次发布

本文链接：https://blog.youkuaiyun.com/Spark_lr/article/details/142313880

版权

文章目录

1 图卷积网络（Graph Convolutional Network, GCN）
- 1.1 图和节点表示
- 1.2 GCN的卷积操作
2 图注意力模型（Graph Attention Networks, GAT）
- 2.1 注意力机制
- 2.2 多头注意力机制
3 关系图卷积网络（Relational Graph Convolutional Network, rGCN）
- 3.1 多关系图和节点特征
- 3.2 邻居特征聚合

本文是笔者进行神经网络学习的个人学习日记

图片和链接均源自网络，侵删

1 图卷积网络（Graph Convolutional Network, GCN）

通过在图上的卷积操作来聚合节点的邻居信息。

1.1 图和节点表示

图通常表示为 $G = (V, E)$ 。
图的结构通过邻接矩阵表示， $A_{ij} = 1$ 表示节点 $i$ 和节点 $j$ 之间有边。
每个节点 $i$ 具有一个特征向量 $x_i$ ，所有节点的特征向量组成特征矩阵 $X$ ，其维度为 $\times F$ ，其中 $N$ 是节点数量， $F$ 是特征维度。

1.2 GCN的卷积操作

GCN通过在图上定义的卷积操作来更新节点的特征。这个卷积操作的核心是聚合每个节点及其邻居节点的信息，以生成新的节点表示。具体来说，GCN的卷积操作可以分为以下几步：

邻接矩阵归一化：

通常使用对称归一化的邻接矩阵：
$\tilde{A} = A + I\\ \tilde{D}_{ii} = \sum_j \tilde{A}_{ij}\\ \hat{A} = \tilde{D}^{-1/2} \tilde{A} \tilde{D}^{-1/2}$
其中 $I$ 是单位矩阵， $\tilde{D}$ 是 $\tilde{A}$ 的度矩阵。
节点特征聚合和变换：

在每一层卷积中，节点特征通过与归一化的邻接矩阵 $\hat{A}$ 和权重矩阵 $W$ 的乘积进行更新：
$H^{(l+1)} = \sigma(\hat{A} H^{(l)} W^{(l)})$
其中， $H^{(l)}$ 是第 $l$ 层的节点特征矩阵， $W^{(l)}$ 是第 $l$ 层的权重矩阵， $\sigma$ 是激活函数（如ReLU）。在初始层， $H^{(0)} = X$ 。
多层卷积：

通过堆叠多层卷积，GCN能够逐层聚合更远的邻居信息，从而捕捉图的全局结构。典型的GCN包含两到三层卷积层。

2 图注意力模型（Graph Attention Networks, GAT）

GAT旨在通过引入注意力机制，来解决传统GCN中对邻居节点特征进行简单平均或加权求和时缺乏灵活性的问题。通过注意力机制，GAT能够为每个节点的每个邻居分配不同的权重，允许模型在训练过程中学习到更有效的特征表示。

2.1 注意力机制

GAT中的注意力机制通过对每个节点及其邻居节点进行注意力计算，来动态分配权重。具体步骤如下：

线性变换：对每个节点的特征向量 $h_i$ 进行线性变换 $h_i'=Wh_i$ ，其中， $W$ 是一个可学习的权重矩阵。
注意力计算：对每个节点 $i$ 和其邻居节点 $j$ ，计算注意力得分 $e_{ij}=\text{LeakyReLU}(a^T[h_i'||h_j'])$ ，其中， $a$ 是一个可学习的注意力权重向量， $∣∣$ 表示向量拼接操作。
归一化得分：对每个节点 $i$ 的所有邻居节点注意力得分进行归一，得到注意力权重：
$\alpha_{ij}=\frac{\exp(e_{ij})}{\sum_{k\in\mathcal{N}(i)}\exp(e_{ik})}$
其中， $\mathcal{N}(i)$ 表示节点 $i$ 的邻居节点集合。
特征聚合：使用注意力权重对邻居节点的特征进行加权求和，得到新的节点表示：
$\mathbf{h}_i^{(l+1)} = \sigma \left( \sum_{j \in \mathcal{N}(i)} \alpha_{ij} \mathbf{h}_j' \right)$

2.2 多头注意力机制

为了提高模型的稳定性和表现力，GAT通常使用多头注意力机制（Multi-Head Attention）。在这种机制下，多个独立的注意力头并行计算，并将它们的输出进行拼接或平均：

拼接（用于中间层）：
$\mathbf{h}_i^{(l+1)} = \big|\big|_{k=1}^K \sigma \left( \sum_{j \in \mathcal{N}(i)} \alpha_{ij}^{(k)} \mathbf{W}^{(k)} \mathbf{h}_j \right)$
其中， $\big|\big|$ 表示拼接操作， $K$ 是注意力头的数量。
平均（用于最终层）：
$\mathbf{h}_i^{(l+1)} = \sigma \left( \frac{1}{K} \sum_{k=1}^K \sum_{j \in \mathcal{N}(i)} \alpha_{ij}^{(k)} \mathbf{W}^{(k)} \mathbf{h}_j \right)$

3 关系图卷积网络（Relational Graph Convolutional Network, rGCN）

rGCN是一种专门用于处理多关系图（multi-relational graph）的图神经网络模型。例如，在知识图谱中，不同的边可以表示“是朋友”、“工作于”等不同类型的关系。rGCN通过引入关系类型的卷积操作，有效地处理这种复杂的图结构。

3.1 多关系图和节点特征

多关系图由节点集合 $V$ 和多关系边集合 $R$ 组成， $R$ 包含多种不同类型的关系。每种关系类型 $r$ 都有其对应的邻接矩阵 $A^r$ 。

每个节点 $v_i$ 有一个特征向量 $h_i$ 。所有节点的特征向量组成特征矩阵 $H$ 。

3.2 邻居特征聚合

对于每个节点 $v_i$ ，聚合其所有邻居节点在不同关系下的特征表示：
$h_i^{(l+1), r} = W_r^{(l)} h_i^{(l)}\\ h_i^{(l+1)} = \sigma \left( \sum_{r \in R} \sum_{j \in \mathcal{N}_r(i)} \frac{1}{c_{i,r}} W_r^{(l)} h_j^{(l)} + W_0^{(l)} h_i^{(l)} \right)$
其中：