GraphFormer笔记

最新推荐文章于 2025-02-19 21:46:25 发布

nxlogn

最新推荐文章于 2025-02-19 21:46:25 发布

阅读量1k

点赞数 4

CC 4.0 BY-SA版权

分类专栏： GNN&LLM 文章标签：笔记语言模型 ai

本文链接：https://blog.youkuaiyun.com/hdlboomboomboom/article/details/139022625

GNN&LLM 专栏收录该内容

1 篇文章

订阅专栏

NIPS2021

1 Introduction

文本属性图是一种广泛使用的数据格式。在文本属性图上的表示学习，就是根据节点文本以及邻居节点的文本信息来获得低维的 embedding。现在的做法有一种是讲预训练模型和 GNN 技术结合，即 PLM 去独立获取文本的 embedding，再使用 GNN 去聚合节点的信息。

这种做法叫做 Transformer-GNN 级联做法，如图 1 所示，也就是 Transformer 的组件是部署在 GNN 的组件的前面的。实际上，因为两者独立编码，缺乏了节点文本信息之间的交换。在一些语义上具备歧义的场景会产生没有完全理解全文的现象。例如，一个节点内文本”notes on Transformer“，一个与他连接的节点内文本”tutorials on machine translation“，所以此处的 Transformer 就不太可能是指变压器。

作者提出了新的架构，如图 2 所示，将 GNN 和 Transformer 嵌套，叫做 GraphFormer。文本编码和图信息聚合被融合为一个迭代工作流程。在每一次迭代过程中，相互连接的节点就会交换信息。下一层的 Transformer 就会在增强的节点特征上继续编码，和级联的架构相比，这种做法产生了节点之间的信息交换和增强，得到的节点 embedding 更具备表达力。

1.1 关于GraphFormer的训练

单个节点的信息饱满程度足够应对大多数都场景，即使不去聚合邻居节点的信息，也可以解决问题。如此以来，最终训练得到的 GNN 编码器会是缺乏”锻炼的“。受到课程学习（curriculum learning）的启发，作者在 GraphFormer 的训练上分为两个过程：

curriculum learning：模型的学习呈阶段性，从简单样本上学习，到从复杂样本上学习。

将原始数据的一部分经过人工污染，让 GNN 很难仅仅通过中心节点就做出准确预测，于是就会去学习利用周围的信息。
在未经人工污染的数据上，去拟和目标分布。

1.2 单向图注意（undirected graph attention）

因为所有连接的节点都是相互依赖的，所以如果有新的中心节点需要操作，无论他周围的节点有没有被处理过，都要从头再来。这样就产生了很多不需要的计算。本文采用了单向图注意来缓解这个问题。只有中心节点需要参考周围节点，而周围节点直接独立编码，于是已经编码过的邻居节点的结果可以重用。

2 GraphFormers

在文本图数据的表示中，节点 $x$ 是一个文本， $N_x$ 表示邻居， $G_x$ 表示整个图，目标是通过 embedding 的相似度预测 $x_q$ 和 $x_k$ 是否存在链接。

2.1 GNN-nested Transformers

首先，中心节点和邻居节点被编码为一个 token 序列，前端带有 [cls]，[cls] 表示的是一个节点的 embedding。基于词 embedding 和位置 embedding，输入序列被映射到初始 embedding 序列 ${Hg0}G\{\mathrm{H}_g^0\}_G$ 。embedding 序列由多个 GNN-nested Transformer 层编码而得。

2.1.1 Graph Aggregation in GNN

如图第 $l$ 层为例，首先用 Transformer 编码出初始的 token 级的编码序列 ${Hg0}\{\mathrm{H}_g^0\}$ ，每一个节点对应一个 ${Hgi0}\{\mathrm{H}_{g_i}^{0}\}$ ，最开始，会直接将 token 级的 embedding 赋值给 node 级的 embedding， $z^gl←Hgl\mathbf{\hat{z}}_g^l\leftarrow \mathbf{H}_g^l$ ，node 级的 embedding 是由 GNN 聚合所有节点信息之后得到的。所有的 $z^gl\mathbf{\hat{z}}_g^l$ 组成了 $ZGl\boldsymbol{Z}_{G}^{l}$ ，作为多头注意力的输入，接下来和 GAT 的操作类似，得到 GAT 的编码：
$Z^Gl=MHA(ZGl); \hat{\mathbf{Z}}_G^l=\mathrm{MHA}(\mathbf{Z}_G^l);$

$\mathrm{MHA(}\mathbf{Z}_{G}^{l})=\mathrm{Concat(}\mathbf{head}_1,...,\mathbf{head}_h);$

$\mathbf{head}_{j}=\mathrm{softmax}(\frac{\mathbf{QK}^{\mathrm{T}}}{\sqrt{d}}+\mathbf{B})\mathbf{V};$

$\mathbf{Q}=\mathbf{Z}_G^l\mathbf{W}_j^Q; \mathbf{K}=\mathbf{Z}_G^l\mathbf{W}_j^K; \mathbf{V}=\mathbf{Z}_G^l\mathbf{W}_j^V;$

公式 4 中有三个投影矩阵，对应的是第 $j$ 个注意力头。聚合信息之后的 $Z^Gl\hat{\mathbf{Z}}_G^l$ 里的每一个 $z^gl\mathbf{\hat{z}}_g^l$ 都会被分配到原来的节点上，并和自己 token 级的 embedding 做一个 concat 操作。
$H^gl←Concat(z^gl,Hgl). \widehat{\mathbf{H}}_g^l\leftarrow\mathrm{Concat}(\mathbf{\hat{z}}_g^l,\mathbf{H}_g^l).$

2.1.2 Text Encoding in Transformer

经过图聚合增强之后的 token 级的 embedding $H^gl\widehat{\mathbf{H}}_g^l$ 接下来由 Transformer 组件处理，
$H^gl=LN(Hgl+MHAasy(H^gl)); \hat{\mathbf{H}}_g^l=\mathrm{LN}(\mathbf{H}_g^l+\mathrm{MHA}^{asy}(\widehat{\mathbf{H}}_g^l));$

$Hgl+1=LN(H^gl+MLP(H^gl)). \mathbf{H}_g^{l+1}=\mathrm{LN}(\widehat{\mathbf{H}}_g^l+\mathrm{MLP}(\widehat{\mathbf{H}}_g^l)).$

首先， $H^gl\widehat{\mathbf{H}}_g^l$ 经过一个非对称多头注意力层，并和原始的 token 编码作 add 并进行 Norm 操作
经过一个 MLP 投影之后再加上没投影之前的，和未投影的 token 编码作 add 并进行 Norm 操作

从而得到下一层的 token 级的输入 $Hgl+1\mathbf{H}_g^{l+1}$ ，最后一层的输出 $zxL(i.e.,HgL[0])\mathbf{z}_{x}^{L} (\mathrm{i.e.},{\mathbf{H}}_{g}^{L}[0])$ 就是最终的节点表示。总的时间复杂度是 $O(M^2+MP2)O(\hat{M}^2+MP^2)$ ，分别是 GAT 和 Transformer 需要的时间，其中 $M$ 是节点数， $P$ 是token 的数量

2.2 Undirected Graph Aggregation

之前提到了关于模型的一个问题：在编码过程中，输入节点相互依赖。因此，为了为节点生成嵌入，其邻域中的所有相关节点都需要从头开始编码，而不管它们是否之前已经处理过。

作者采用了一种叫做单向图聚合的做法简化了计算：只有中心节点需要考虑周围节点的信息，而作为邻居节点，则直接由文本编码赋值即可。
$Hgl+1={TRMl(Hxl^),g=x;TRMl(Hgl),∀g∈Nx. \mathbf{H}_g^{l+1}=\begin{cases}\mathrm{TRM}^l(\widehat{\mathbf{H}_x^l}), g=x;\\\mathrm{TRM}^l(\mathbf{H}_g^l), \forall g\in N_x.\end{cases}$
在框架中产生的节点的 node 级编码 $z^gl\mathbf{\hat{z}}_g^l$ 会被缓存，作为后续可能计算使用。

2.3 两阶段模型训练

2.3.1 训练目标

以链接预测作为训练任务，给定一个节点对 $q$ 和 $k$ ，预测基于他们各自的 embedding，是否存在链接。最小化以下分类损失：
$\mathcal{L}=-\log\frac{\exp(\langle\mathbf{h}_q,\mathbf{h}_k\rangle)}{\exp(\langle\mathbf{h}_q,\mathbf{h}_k\rangle)+\sum_{r\in R}\exp(\langle\mathbf{h}_q,\mathbf{h}_r\rangle)}.$
$hq\mathbf{h}_q$ 和 $hk\mathbf{h}_k$ 是模型得到的节点的 embedding， $<⋅><\cdot >$ 表示内积操作， $R$ 表示负采样样本。

深入学习：作者在实验中采用了 in-batch negative sampling 的做法，相比其他训练方法，这种做法的优点是什么？

in-batch negative sampling：多个训练 batch，一个 batch 内的正样本将作为其他 batch 内的负样本存在

2.3.2 两阶段训练

在 GraphFomer 里，实际上中心节点和周围节点是被区别对待的，这样做会破坏模型店训练效果。具体来讲，就是中心节点的信息可以直接使用，但是周围节点的信息却需要 3 个步骤才能引入

先编码为 node 级的 embedding
经过 GAT 操作和中心节点进行聚合
引入中心节点经过图增强之后的 token 级 embedding

那么，如果中心节点的文本信息量已经足够完成预测，根本不需要考虑周围的节点信息的话。如此以来，模型的 Transformer 就会很强大，但是 GNN 模块却很弱。为了减轻这个问题，作者提出了一个”热身任务“：链接预测的训练是建立在被人工污染的数据上的。

polluted nodes：一个节点的一个 token 子集会被随机遮盖（masked）

因为被遮盖导致节点表示不足够产生精确的预测，所以模型会强迫自己大量利用周围的信息（加强周围信息的权重）学习。

第一阶段损失

$\mathcal{L}'=-\log\frac{\exp(\langle\mathbf{h}_{\tilde{q}},\mathbf{h}_{\tilde{k}}\rangle)}{\exp(\langle\mathbf{h}_{\tilde{q}},\mathbf{h}_{\tilde{k}}\rangle)+\sum_{r\in R}\exp(\langle\mathbf{h}_{\tilde{q}},\mathbf{h}_{\tilde{r}}\rangle)}$

波浪号标志的元素表示从被污染的节点上得到的 embedding。最小化该损失函数直到收敛。

第二阶段损失

$\mathcal{L}=-\log\frac{\exp(\langle\mathbf{h}_q,\mathbf{h}_k\rangle)}{\exp(\langle\mathbf{h}_q,\mathbf{h}_k\rangle)+\sum_{r\in R}\exp(\langle\mathbf{h}_q,\mathbf{h}_r\rangle)}.$