Graph Transformer系列论文阅读

最新推荐文章于 2024-06-10 14:09:33 发布

原创

最新推荐文章于 2024-06-10 14:09:33 发布 · 2.1k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #论文阅读 #深度学习

文章探讨了Transformer模型在处理图结构数据时的挑战，提出Graphormer模型通过中心性编码、空间编码和边信息编码来引入图的结构信息。另外，还介绍了RelationalAttention方法，它将Transformer扩展到图结构任务，利用节点间的有向边向量。这些方法旨在克服图神经网络的局限性和Transformer对序列数据的专注，提升图数据处理的性能。

文章目录

research
- 1.《Do Transformers Really Perform Bad for Graph Representation》【NeurIPS 2021 Poster】
- 2.《Relational Attention: Generalizing Transformers for Graph-Structured Tasks》【ICLR2023-spotlight】
survey

推荐一个汇总Graph Transformer论文的项目：awesome-graph-transformer
推荐一个串讲Graph Transformer的推送：一文带你浏览Graph Transformers

research

1.《Do Transformers Really Perform Bad for Graph Representation》【NeurIPS 2021 Poster】

$\quad$ 原作者对论文的解读：https://www.msra.cn/zh-cn/news/features/ogb-lsc
$\quad$ 核心： 利用结构信息对 attention score 进行修正，这样在self-attention的基础上，比较好地利用上了图的结构信息。
$\quad$ 动机： 目前图预测领域的主流算法是图神经网络（GNN）模型及其变种（比如图卷积网络（GCN，Graph Convolutional Net）、图注意力网络（GAT，Graph Attention Net）、图同构网络（GIN，Graph Isomorphic Net）等）。但是，这些图神经网络的结构相对简单，表达能力有限，且经常会出现过度平滑（Over-Smoothing）的问题（即无法通过堆深网络而增加 GNN 的表达能力）。相比于此，Transformer的模型表达能力很强，但是它的设计初衷是用来处理序列数据的，比如文本、语音等，并不能处理图结构数据。或者说self-attention机制只计算了节点的相关性，并没有考虑节点间的边信息（结构信息），self-attention机制将节点的相关性当作节点间的“边信息”，然而这并不包含结构关系。

$\quad$ 那如何让Transformer处理图类型数据呢？对于这个问题，这篇文章认为核心在于如何让Transformer 学会编码图的结构信息。

$\quad$ Transformer 具有强大表达能力的原因在于其 自注意力机制，它通过计算输入中不同位置的语义信息相关性（可以理解为相似度），从而捕捉到输入之间的关系，并基于这些关系得到对整个输入完整的表达（representation）。然而，自注意力机制无法捕捉到结构信息，只能捕捉节点的相似度。对于自然语言序列而言，输入序列的结构信息可以简单认为是词与词的相对顺序，以及每个词在句子中的位置。对于图数据而言，这种结构信息更加复杂、多元，例如在图上的每个节点都有不同数量的邻居节点，两个节点之间可以有多种路径，每个边上都可能包含重要的信息。如何在图数据中成功应用 Transformer 的核心优势，最关键的难题是要确保Transformer可以正确利用图数据的结构信息。

在这里插入图片描述
$\quad$ 为了在Transformer中引入图数据中的结构信息，这篇文章提出了 Graphormer 模型，引入了三种结构编码，以帮助 Transformer 模型捕捉图的结构信息。其实就是构造了这些结构编码，然后直接加到self-attention的注意力权重上，目的是为attention score引入结构信息来进行修正，从而令修正的注意力权重分配更准确。三种结构编码如下：（主要参考原作者的解释）

第一种编码，Centrality Encoding（中心性编码）。Centrality（中心性）是描述图中节点重要性的一个关键衡量指标。图的中心性有多种衡量方法，例如一个节点的“度”（degree）越大，代表这个节点与其他节点相连接的边越多，那么往往这样的节点就会更重要，如在疾病传播路线中的超级传播者，或社交网络上的大V、明星等。Centrality 还可以使用其他方法进行度量，如 Closeness、Betweenness、Page Rank 等。在 Graphormer 中，研究员们采用了最简单的度信息作为中心性编码，为模型引入节点重要性的信息。具体的方式是直接将Centrality Encoding加到每一个节点特征上。为什么要直接加到节点特征上？因为这些信息并没有反应注意力的信息，反映的是每个结点的特征。
- 其中
第二种编码，Spatial Encoding（空间编码）。实际上图结构信息不仅包含了每个节点上的重要性，也包含了节点之间的重要性。例如：邻居节点或距离相近的节点之间往往相关性比距离较远的节点相关性高。因此，研究员们为 Graphormer 设计了空间编码：给定一个合理的距离度量 $ϕ(v_i, v_j)$