GRAPH ATTENTION NETWORKS论文笔记

最新推荐文章于 2025-11-02 21:30:47 发布

原创最新推荐文章于 2025-11-02 21:30:47 发布 · 471 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

GNN 专栏收录该内容

1 篇文章

订阅专栏

简单符号说明：

$h={h1⃗,h2⃗,…,hN⃗},hi⃗∈RF\boldsymbol h = \{\vec {h_1},\vec {h_2},\ldots,\vec{h_N}\},\vec {h_i} \in R^F$ 转换之前的节点特征矩阵， $h⃗i\vec h_i$ 是节点 $i$ 的特征向量

$h′={h1′⃗,h2′⃗,…,hN′⃗},h⃗i∈RF′\boldsymbol h^{'} = \{\vec {h^{'}_1},\vec {h^{'}_2},\ldots,\vec {h^{'}_N}\},\vec h_i \in R^{F^{'}}$ 转换之后的节点特征矩阵

$\in R^{F^{'} \times F}$ 层与层之间的转换矩阵
模型说明：
1. 这篇文章提出的图注意力网络两点主要是根据中心节点其邻接点特征向量的取值来构建其对中心节点的影响程度，而不是像Kipf & Welling等人对邻接点统一对待。最后用于计算的邻接点也是一阶邻接点(直接相连)。
  
  每一个邻接点对于中心点的影响程度可以用图注意力系数 $e_{ij}$ 表示,
  $e_{ij} = a(\boldsymbol W\vec{h_i},\boldsymbol W\vec{h_j})$
  a是注意力计算函数，对于任意节点我们只计算 $\in \mathcal{N}_i,\mathcal{N}_i$ 是节点 $i$ 的邻接点集合。
  
  在这篇文章中，图注意力机制是一个单层前馈神经网络。简单的抽象理解如下：
  
  为了使不同节点之间的注意力系数可比较，使用softmax函数对注意力系数进行规范化。
  $\alpha_{ij} = softmax_j(e_{ij}) = \frac{exp(e_{ij})}{\sum_{k \in \mathcal{N}_i}exp(e_{ik})}$
  
  具体的注意力计算时，这篇文章主要使用 $a⃗∈R2F′\vec a \in R^{2F^{'}}$ （用于注意力计算的权值参数），以及LeakyReLu函数，注意力系数的具体表达式如下：
  $\alpha_{ij} = \frac{exp(LeakyReLu(\vec a ^T[\boldsymbol W\vec{h_i}||\boldsymbol W\vec{h_j}]))}{\sum_{k \in \mathcal{N}_i}exp(LeakyReLu(\vec a ^T[\boldsymbol W\vec{h_i}||\boldsymbol W\vec{h_k}]))}$
2. 在聚合邻接点对中心节点的影响时，采用multi-head attention来聚合形成新的特征。
  $\vec{h_i^{'}} = \|_{k=1}^{K}\sigma(\sum_{j \in \mathcal{N}_i}\alpha_{ij}^{k}\boldsymbol W^k \vec{h_j})$
  注：经计算后， $hi′∈RKF′h_i^{'} \in R^{KF^{'}}$
  
  最后一层(预测层)的聚合方式则采用取均值的方法进行，并延后使用激活函数
  $\vec{h_i^{'}} =\sigma(\frac{1}{K}\sum_{k=1}^{K}\sum_{j \in \mathcal{N}_i}\alpha_{ij}^{k}\boldsymbol W^k \vec{h_j})$
3. 模型过程：下面用来具体看一看每一层具体做了什么。
  
  每一层的输出：
  $每一层的输出(不用于预测时)：H^{l+1} = \begin{bmatrix} H^{l+1}_{11} & H^{l+1}_{12} & \cdots & H^{l+1}_{1,KF'}\\ \vdots & \vdots & \ddots & \vdots\\ H^{l+1}_{N1} & H^{l+1}_{N2} & \cdots & H^{l+1}_{N,KF'} \end{bmatrix} \\ \quad \\ 每一层的输出(用于预测时)：H^{l+1} = \begin{bmatrix} H^{l+1}_{11} & H^{l+1}_{12} & \cdots & H^{l+1}_{1F'}\\ \vdots & \vdots & \ddots & \vdots\\ H^{l+1}_{N1} & H^{l+1}_{N2} & \cdots & H^{l+1}_{NF'} \end{bmatrix}$
  
  每一层的输入：
  $\\ \quad \\ 每一层的输入：H^{l} = \begin{bmatrix} H^{l}_{11} & H^{l}_{12} & \cdots & H^{l}_{1F}\\ \vdots & \vdots & \ddots & \vdots\\ H^{l}_{N1} & H^{l}_{N2} & \cdots & H^{l}_{NF} \end{bmatrix}$
  
  神经网络在每一层需要训练的参数，其中转换权值矩阵是直接的网络参数，而注意力矩阵是由神经网络参数 $a⃗\vec a$ 计算而来。
  $\\ \quad \\ 转换权值矩阵：W = \begin{bmatrix} W_{11} & W_{12} & \cdots & W_{1F^{'}}\\ \vdots & \vdots & \ddots & \vdots\\ W_{F1} & W_{F2} & \cdots & W_{FF^{'}} \end{bmatrix} \\ \quad \\ 注意力矩阵：att = \begin{bmatrix} att_{11} & att_{12} & \cdots & att_{1N}\\ \vdots & \vdots & \ddots & \vdots\\ att_{N1} & att_{N2} & \cdots & att_{NN} \end{bmatrix}$
  
  每一层首先做的事就是通过转换矩阵将特征维度从 $F - > F^{'}$ ，之后再进行注意力计算，先由参数 $a⃗\vec a$ 计算任意两条边的注意力系数，根据邻接矩阵显示的节点关系得到最终的注意力系数矩阵，再通过注意力系数矩阵与维度为F’的矩阵相乘得到新的特征矩阵，大小仍为 $\times F'$ 。由于这篇文章采用的Multi-head attention策略，所以这样的网络有 $K$ 层，可以分别得到 $K$ 个 $\times F'$ 的特征矩阵。最后，如果是中间层，那么仅需要连接这 $K$ 个矩阵形成 $\times KF'$ 的新特征矩阵，如果是最后一层，那么对这 $K$ 个矩阵取均值仍然得到 $\times F'$ 的矩阵。
  $\\ \quad \\ H^{'}_1 = H^l \times W_1 ,H^{'}_2 = H^l \times W_2 ,H^{'}_3 = H^l \times W_3 \\ \quad \\ H_1^{l+1} = att_1 \times H^{'}_1,H_2^{l+1} = att_2 \times H^{'}_2,H_3^{l+1} = att_3 \times H^{'}_3 \\ \quad \\ 当输出层不用于预测时,H^{l+1} = \begin{bmatrix}H_1^{l+1} \vdots H_2^{l+1} \vdots H_3^{l+1}\end{bmatrix} \\ \quad \\ 当输出层用于预测时，H^{l+1} = \frac{1}{K} \sum_{i=1}^K H_i^{l+1}$
  
  图示说明如下：

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。