GATs《GRAPH ATTENTION NETWORKS》阅读笔记

嬉嬉皮

已于 2023-01-11 14:36:00 修改

阅读量391

点赞数

分类专栏：机器学习 GNNs 深度学习文章标签：深度学习人工智能

于 2020-03-16 16:45:33 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_37936515/article/details/104902581

版权

机器学习同时被 3 个专栏收录

8 篇文章

订阅专栏

GNNs

6 篇文章

订阅专栏

深度学习

4 篇文章

订阅专栏

本文深入解析Bengio的GATs论文，介绍了如何利用Multi-head Self-attention进行节点分类，通过计算节点的隐藏表示，实现inductive方法的应用。文章详细阐述了GAT结构，结合GCN和multi-head attention，特别关注了图注意力层的输入、输出及权重矩阵的计算，展示了注意力机制在图神经网络中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天读一读Bengio大神的GATs

本篇论文Introduction所介绍的文章路线比较清晰，可以拿来做个Roadmap。

任务：Node Classification

Idea: 通过Multi-head Self-attention，考虑节点的邻节点，计算每个节点的hidden representation。方法可直接应用于inductive方法。

GAT结构

本文结合了GCN和multi-head attention。

首先明确单个注意力层方法：

图注意力层输入为：
$\{ \overrightarrow {{h_1}} ,\overrightarrow {{h_2}} , \ldots ,\overrightarrow {{h_N}} \} ,\overrightarrow {{h_i}} \in {R^F}$
N为节点数量，F为特征维度。

输出就是相应的新的节点特征，节点数量不变：
$\{ \overrightarrow {{h_1'}} ,\overrightarrow {{h_2'}} , \ldots ,\overrightarrow {{h_N'}} \} ,\overrightarrow {{h_i'}} \in {R^F}'$
以及一个应用于每个节点的权重矩阵：
$\in {R^{F' \times F}}$
然后就可以在节点上进行self-attention操作了：
${\alpha _{ij}} = \frac{{\exp ({\rm{LeakyReLU(}}{{\overrightarrow a }^T}\left[ {W\overrightarrow {{h_i}} \left\| {W\overrightarrow {{h_j}} } \right.} \right]{\rm{)}})}}{{\sum\nolimits_{k \in {N_i}} {\exp ({\rm{LeakyReLU(}}{{\overrightarrow a }^T}\left[ {W\overrightarrow {{h_i}} \left\| {W\overrightarrow {{h_k}} } \right.} \right]{\rm{)}})} }}$

||为concatenation
a为一个全连接层，后面接了LeakyReLU，至于为什么是它，炼出来的吧
N_i不是节点i的所有邻节点也不是图中的所有节点，而是包括节点i在内的first-order neighbors. 这一过程是通过mask 邻接矩阵实现的
输出的alpha为归一化的注意力系数

上述公式如下图
在这里插入图片描述
得到归一化的注意力权重系数alpha后，就可以计算每个节点的新的节点特征了，具体而言：
$\overrightarrow {{h_i}'} = \sigma (\sum\limits_{j \in {N_i}} {{\alpha _{ij}}W} \overrightarrow {{h_j}} )$
因为N_i中包括了节点i本身及其first-order邻节点，所以新的特征融合了自身及其邻节点的信息。注意这里的W和alpha中的是同一个。

Multi-head也很简单，就是K个独立的注意力模块的concatenation：
$\overrightarrow {{h_i}'} = \mathop {||}\limits_{k = 1}^K \sigma (\sum\limits_{j \in {N_i}} {\alpha _{_{ij}}^k{W^k}} \overrightarrow {{h_j}} )$