图注意力网络(GAT)

Starry memory

已于 2022-05-09 10:06:34 修改

阅读量3.3k

点赞数 1

分类专栏：人工智能文章标签：人工智能算法

于 2022-04-25 15:05:04 首次发布

人工智能专栏收录该内容

41 篇文章

订阅专栏

背景

作为对比算法被应用在我们的算法中

Veličković P, Cucurull G, Casanova A, et al. Graph attention networks[J]. arXiv preprint arXiv:1710.10903, 2017.(应该是发表在了ICLR)

模型

图注意力网络 (Graph Attention Networks)被提出\upcite{18}。 $X{\bf{X}}$ 表示所有样本对应的特征， $X∈RN×F{\bf{X}} \in {\mathbb{R}^{N \times F}}$ ，其中 $N$ 表示样本的数量， $F$ 表示单个样本对应的特征纬度。 $xi{\bf{x}}_i$ 表示为单个样本的特征， $xi∈RF{{\bf{x}}_i} \in {\mathbb{R}^F}$ 。

$att(⋅){\rm{att}}( \cdot )$ 表示注意力系数的计算，一般注意力机制中 $att(⋅){\rm{att}}( \cdot )$ 表示为 $RH×RH→R{\mathbb{R}^H} \times {\mathbb{R}^H} \to \mathbb{R}$ 。在图注意力网络中，注意力机制系数通过前向传播的神经网络计算得到。
${c_{ij}}{\rm{ = }}\begin{matrix}{{c}} {{{\bf{x}}_i}{{\bf{W}}^{\rm{T}}}} \end{matrix} \oplus {{\bf{x}}_j}{\bf{W}}$
$c_{ij}$ 的计算方式如下所示，seq_fts是特征进行一次映射之后得到的结果：

   f_1 = tf.layers.conv1d(seq_fts, 1, 1)
   f_2 = tf.layers.conv1d(seq_fts, 1, 1)
   logits = f_1 + tf.transpose(f_2, [0, 2, 1])

$⊕\oplus$ 是将 $cWxiT\begin{matrix}{{c}} {{\bf{W}}{{\bf{x}}_i}^{\rm{T}}} \end{matrix}$ 转置得到的结果中第 $i$ 个值与 $Wxj{\bf{W}}{{\bf{x}}_j}$ 中第 $j$ 个值进行相加。表示 ${c_{ij}}$ 节点 $i$ 与节点 $j$ 的注意力系数， $\in {{\mathcal N}_i}$ ， $Ni{{\mathcal N}_i}$ 是 $j$ 的领域节点。
在GAT中，使用LeakyRelu函数，并进行归一化，如下所示:
${\delta _{ij}} = \frac{{\exp ({\rm{LeakyReLu(}}{c_{ik}}{\rm{)}})}}{{\sum\nolimits_{k \in {{\mathcal N}_i}} {\exp ({\rm{LeakyReLu(}}{c_{ik}}{\rm{)}})} }}$
通过注意力计算后，得到的新的特征表示为：
$KaTeX parse error: Undefined control sequence: \cal at position 62: …imits_{j \in {{\̲c̲a̲l̲ ̲N}_i}} {{\delta…$
$σ\sigma$ 是一个非线性的激活函数。引入多头注意力机制如下
${{\bf{h'}}_i}{\rm{ = }}\mathop {{\rm{||}}}\limits_{m = 1}^M \sigma {\rm{(}}\sum\limits_{j \in {{\mathcal N}_i}} {\delta _{_{ij}}^m{{\bf{W}}^m}{{\bf{x}}_j}} {\rm{)}}$
$h′i{{\bf{h'}}_i}$ 表示多头注意力通过拼接得到的结果， $∣∣{\rm{||}}$ 表示拼接。最终，对多头注意力做平均，如下所示
${{\bf{h''}}_i}{\rm{ = }}\sigma {\rm{(}}\frac{1}{M}\sum\limits_{m = 1}^M {\sum\limits_{j \in {{\mathcal N}_i}} {\delta _{_{ij}}^m{{\bf{W}}^m}{{\bf{x}}_j}} } {\rm{)}}$
$h′′i{{\bf{h''}}_i}$ 表示多头注意力机制平均得到的结果。
图注意力网络通过自注意力机制解决图网络中的卷积运算。注意力机制在计算上不需要进行矩阵运算操作，通过邻域节点的重要性进行节点特征表示。除此以外，注意力机制可以被用来研究模型的可解释性。

代码

邻接矩阵处理方式

size:[2708]
adj: [1,2708,2708]
def adj_to_bias(adj, sizes, nhood=1):
    nb_graphs = adj.shape[0]
    mt = np.empty(adj.shape) #mt is [1, 2708, 2708]
    for g in range(nb_graphs): #nb_graphs is 1
        mt[g] = np.eye(adj.shape[1])  #mt变为单位矩阵
        for _ in range(nhood):
            mt[g] = np.matmul(mt[g], (adj[g] + np.eye(adj.shape[1])))
        #d=
        for i in range(sizes[g]):
            for j in range(sizes[g]):
                if mt[g][i][j] > 0.0:
                    mt[g][i][j] = 1.0
    return -1e9 * (1.0 - mt)