GNNs入门（二）GAT

我也秃了

已于 2024-10-14 16:13:21 修改

阅读量1k

点赞数 22

分类专栏：图神经网络文章标签： GNN

于 2024-10-14 15:16:33 首次发布

本文链接：https://blog.youkuaiyun.com/qq_40044912/article/details/142774850

版权

图神经网络专栏收录该内容

3 篇文章

订阅专栏

1. 简介

图注意力网络（Graph Attention Networks，简称GAT）是一种革命性的图表示学习方法，它通过引入注意力机制，有效捕捉图中节点之间的复杂关系。GAT的核心优势在于能够动态学习节点与邻居节点的权重，从而在不同任务中实现高效的特征聚合。这种灵活性使其在图分类、节点分类等任务中取得了广泛应用。

2. 工作原理

GAT的工作原理可以概括为以下几个关键步骤：

2.1 节点表示初始化

首先，针对图中的每个节点，初始化其特征向量，通常根据节点的属性或外部信息来进行初始化。

2.2 注意力权重计算

GAT通过计算节点与其邻居之间的注意力权重来衡量它们之间的相互重要性。这一过程通常涉及节点特征向量的内积，以评估节点间的关联强度。
GAT中典型的注意力权重计算公式如下：
$a_{u,v} = \frac{\exp\left(\mathbf{a}^T\left[\mathbf{W}\mathbf{h}_u \mathbf{W}\mathbf{h}_v\right]\right)}{\sum_{u' \in \mathcal{N}(u)} \exp\left(\mathbf{a}^T\left[\mathbf{W}\mathbf{h}_u \mathbf{W}\mathbf{h}_{u'}\right]\right)}$
其中， $\mathbf{a}$ 是可训练的注意力向量， $\mathbf{W}$ 是可训练的权重矩阵， $\mathcal{N}(u)$ 是节点 $u$ 的邻居节点集合。
上面这个只是最初始的公式，已经可以很好地处理图数据。然而，原则上，任何深度学习中的标准注意力模型都可以被应用。介绍两个流行的注意力变体：双线性注意力模型和多层感知注意力模型（MLP注意力）。其中，后者MLP被限制为标量输出。

公式	内容	区别
original	$a_{u,v} = \frac{\exp\left(\mathbf{a}^T\left[\mathbf{W}\mathbf{h}_u \mathbf{W}\mathbf{h}_v\right]\right)}{\sum_{u' \in \mathcal{N}(u)} \exp\left(\mathbf{a}^T\left[\mathbf{W}\mathbf{h}_u \mathbf{W}\mathbf{h}_{u'}\right]\right)}$	通过特征的连接和内积来计算
bilinear	$a_{u,v} = \frac{\exp\left(\mathbf{h}_u^T \mathbf{W} \mathbf{h}_v\right)}{\sum_{u' \in \mathcal{N}(u)} \exp\left(\mathbf{h}_u^T \mathbf{W} \mathbf{h}_{u'}\right)}$	通过特征的线性变换和内积来计算
mlp	$a_{u,v} = \frac{\exp\left(\text{MLP}(\mathbf{h}_u, \mathbf{h}_v)\right)}{\sum_{u' \in \mathcal{N}(u)} \exp\left(\text{MLP}(\mathbf{h}_u, \mathbf{h}_{u'})\right)}$	通过一个非线性的MLP模型来计算

当然，既然有了注意力，也可以应用多头来增强注意力。

多注意力头的邻居特征聚合公式：
$m_{\mathcal{N}(u)} = \left[a_{1} \oplus a_{2} \oplus \ldots \oplus a_{K}\right]$
每个注意力头 ( k ) 的邻居特征加权求和公式：
$a_{k} = W_{k} \sum_{v \in \mathcal{N}(u)} \alpha_{u, v, k} h_{v}$
其中， $\alpha_{u, v, k}$ 是节点 $u$ 和其邻居 $v$ 在第 $k$ 个注意力头的注意力权重，可以使用上述任何一种注意力机制来计算。

2.3 注意力权重归一化

为了确保模型稳定性和提高可解释性，GAT采用softmax函数对注意力权重进行归一化处理，确保每个节点对其邻居的注意力权重之和为1。

2.4 邻居表示聚合

利用上一步得到的归一化注意力权重，GAT对每个节点的邻居节点表示进行加权平均，以生成节点的新表示。
$\mathbf{h}_i^{(l+1)} = \sigma\left(\sum_{j \in \mathcal{N}(i)} a_{ij} \mathbf{h}_j^{(l)}\right)$
其中：