Graph Few-shot learning via Knowledge Transfer-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_37936515/article/details/108723998

本文介绍了一种基于图神经网络的Few-shot学习方法，旨在解决小样本情况下的节点分类问题。通过图结构化原型和层次化图表示门控等模块，融合局部和全局信息，提升了模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Preliminaries

图神经网络

一个图 $\mathcal{G}$ 由其邻接矩阵和节点特征 $(\mathbf{A},\mathbf{X})$ 表示，其中 $\mathbf{A} \in\{0,1\}^{n \times n}$ , $\mathbf{X} = \left\{\mathrm{x}_{1}, \ldots, \mathrm{x}_{n}\right\} \in \mathbb{R}^{n \times h}$ 。图 $\mathcal{G}$ 的节点表示通过堆叠的GNN学习： $\mathrm{Z}=\operatorname{GNN}(\mathbf{A}, \mathbf{X})$ 。

基于图的Few-shot Learning问题

同few-shot leanring方法常规设置一样，本文在概率分布 $\mathcal{E}$ 中采样得到图序列 $\left\{\mathcal{G}_{1}, \ldots, \mathcal{G}_{N_{t}}\right\}$ 。对其中的每一张图，划分为support nodes set和query nodes set，分别表示为 $\mathcal{S}_{i}=\left\{\left(\mathbf{x}_{i, j}^{s_{i}}, y_{i, j}^{s_{i}}\right)\right\}_{j=1}^{n^{s_{i}}}$ 和 $\mathcal{Q}_{i}=\left\{\left(\mathbf{x}_{i, j}^{q_{i}}, y_{i, j}^{q_{i}}\right)\right\}_{j=1}^{n^{q_{i}}}$ 。其中 $y_{i, j} \in\{1, \ldots K\}$ 为节点对应的标签。query nodes set中节点标签的预测依赖于它的embedding与support nodes set中各类节点的prototype $c_i^k$ 的度量关系d。embedding通过graph autoencoder学习得到。对于每张图的query nodes set ，其通过 $\mathcal{L}_{i}=\sum_{k} \mathcal{L}_{i}^{k}$ 评估，其中：
$\mathcal{L}_{i}^{k}=-\sum_{\left(\mathbf{x}_{i, j}^{q_{i}}, y_{i, j}^{q_{i}}\right) \in \mathcal{Q}_{i}^{k}} \log \frac{\exp \left(-d\left(f_{\theta}\left(\mathbf{A}, \mathbf{x}_{i, j}^{q_{i}}\right), \mathbf{c}_{i}^{k}\right)\right)}{\sum_{k^{\prime}} \exp \left(-d\left(f_{\theta}\left(\mathbf{A}, \mathbf{x}_{i, j}^{q_{i}}\right), \mathbf{c}_{i}^{k^{\prime}}\right)\right)}$
直观来说，就是看看query nodes set和support nodes set中的哪类节点更相似，一次来作为目标函数优化embedding函数 $f_\theta$ 。上角标 $k$ 表示类别。

graph few-shot learning的目的就是从这一系列图中学习一个性能很好的embedding function $f_\theta$ ，使其能够用于只有少量support set的新图。这里的不同的图，就对应于meta-learning中的不同任务，表示任务层面的泛化。

Methodology

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cwW7stdh-1600737378085)(…/images/GFLKT1.png)]

首先我们看看方法的总框架图。

数据首先被送入©，即graph autoencoder，这个模块被称作Auxiliary Graph Reconstruction是因为作者在这里加了一个重构损失，我们后面说。© 的输出分别进入 (a) Graph Structured Prototype； (b) Hierarchical Graph Representation Gate。(a) 用来学习图中support nodes set的prototype $c_i^k$ 。(b) 用来学习graph-specific的图层次化表达。

接下来我们分别看看这三个模块。

(a) Graph Structured Prototype

在大多数情况下，一个节点在图中有两个重要作用。一个是与类别可能不同的邻节点之间的关系，另一个是与远距离同类节点之间的关系。图 $\mathcal{G}$ 的embedding，也就是 $\mathrm{Z}=\operatorname{GNN}(\mathbf{A}, \mathbf{X})$ ，只考虑了第一个作用。又因为需要给图 $\mathcal{G}$ 的support nodes set学习一个global信息的prototype $c_i^k$ ，也就是对应第二个作用，所以本部分提出了解决方法：Prototype GNN(PGNN)。

既然是基于GNN的解决方案，就要构建邻接矩阵。论文中对图 $\mathcal{G}$ 的support nodes set中每一类节点分别构建邻接矩阵 $\mathcal{R}_{i}^{k}$ 。该类节点的特征为经过graph autoencoder的 $f_{\theta}\left(\mathcal{S}_{i}^{k}\right)$ 。邻接矩阵的构建依赖于相似性度量方法，为了提高邻接矩阵的鲁棒性并减少离群点的干扰，对相似性低于某个阈值的两个点在邻接矩阵中赋予固定的值。

所以，graph structured prototype构建方式为：
$\mathbf{c}_{i}^{k}=\operatorname{Pool}_{j=1}^{n^{s^{k}_i}}\left(\mathrm{PGNN}_{\phi}\left(\mathcal{R}_{i}^{k}, f_{\theta}\left(\mathcal{S}_{i}^{k}\right)\right)[j]\right)$
其中 $j$ 表示节点索引， $n^{s^{k}_i}$ 表示support nodes set中 $k$ 类节点的数量。 $P oo l$ 表示最大或平均池化。值得注意的是，这里的 $PGNN$ 的参数是在不同类别的support nodes set间共享的。

(b) Hierarchical Graph Representation Gate

(a)中的 $PGNN$ 的构建只有一个全局共享的参数 $\phi$ 。但是不同的图有他们独有的拓扑结构，所以这启发作者没每个图定制全局共享信息。这个graph-specific定制的信息再进一步通过门控方法与PGNN的参数融合。

在这里插入图片描述

这部分的方法图如上，整体上借鉴了DiffPool的方法分两步进行：1. Node Assignment；2. Representation Fusion。

第一步Node Assignment计算类似DiffPool中的Soft Assignment Matrix ( $S$ )。不同的是，DiffPool中的 $S$ 用于池化，所以池化前后的节点数量是变化(减少)的。但本文中该方法不是用来池化，而是阐述了图的不同层次的表征的概念。此时，Node Assignment后节点数量不变，变化的是节点的特征。本文中Node Assignment用 $\mathbf{P}_{i}^{r \rightarrow r+1} \in \mathbb{R}^{K^{r} \times K^{r+1}}$ 来表示， $r$ 表示图所在的level， $K$ 表示节点数量。把第 $k^r$ 个节点映射到 $\ level$ 的计算方式为经过 $so f t ma x$ 的 $GNN (A GNN)$ 层。具体如下：
$p_{i}^{k^{r} \rightarrow k^{r+1}}=\frac{\exp \left(\mathrm{AGNN}\left(\mathbf{A}_{i}^{r}, \mathbf{X}_{i}^{r}\right)\left[k^{r}, k^{r+1}\right]\right)}{\sum_{k^{r+1}=1}^{K^{r+1}} \exp \left(\mathrm{AGNN}\left(\mathbf{A}_{i}^{r}, \mathbf{X}_{i}^{r}\right)\left[k^{r}, \bar{k}^{r+1}\right]\right)}$
第二步Representation Fusion仍类似与 $D i ff P oo l$ ，即更新 $(\mathbf{A},\mathbf{X})$ 使图上升一个 $l e v e l$ （ $D i ff P oo l$ 中为更新池化后的图结构）：
$\mathbf{A}_{i}^{r+1}=\left(\mathbf{P}_{i}^{r \rightarrow r+1}\right)^{T} \mathbf{A}_{i}^{r} \mathbf{P}_{i}^{r \rightarrow r+1}$

$\mathbf{X}_{i}^{r+1}=\left(\mathbf{P}_{i}^{r \rightarrow r+1}\right)^{T} \operatorname{FGNN}\left(\mathbf{A}_{i}^{r}, \mathbf{X}_{i}^{r}\right)$

其中FGNN也是一个GNN层。进一步，每个 $l e v e l$ 的图特征 $h_i^r$ 由 $\mathbf{X}_{i}^{r}$ 经过池化得到。

经过不断的提升图的 $l e v e l$ ，我们得到了一个不同层次的图特征表达集合 $\left\{\mathbf{h}_{i}^{1}, \ldots, \mathbf{h}_{i}^{R}\right\}$ 。为了进一步聚合集合，作者提出了两种聚合方式：mean pooling aggregator和attention aggregator(上图中所示)。这两种方式分别如下计算：
$\mathbf{h}_{i}=\operatorname{AGG}_{\operatorname{mean}}\left(\left\{\mathbf{h}_{i}^{1}, \ldots, \mathbf{h}_{i}^{R}\right\}\right)=\frac{1}{R} \sum_{r=1}^{R} \mathbf{h}_{i}^{r}$

$\mathbf{h}_{i}=\operatorname{AGG}_{\mathrm{att}}\left(\left\{\mathbf{h}_{i}^{1}, \ldots, \mathbf{h}_{i}^{R}\right\}\right)=\sum_{r=1}^{R} \beta_{i}^{r} \mathbf{h}_{i}^{r}=\sum_{r=1}^{R} \frac{\mathbf{q}_{i}^{T} \mathbf{h}_{i}^{r}}{\sum_{r^{\prime}=1}^{R} \mathbf{q}_{i}^{T} \mathbf{h}_{i}^{r^{\prime}}} \mathbf{h}_{i}^{r}$

其中 $q$ 为attention aggregator引入的参数。再得到最终的 $h_i$ 后，作者认为其包含了graph-specific的信息。

再进一步，需要将该graph-specific的 $h_i$ 融合到 $PGNN$ 中的参数 $\phi$ 中。在理论层面，作者通过门控+点乘的方式去激活 $\phi$ 的不同维度，在实践层面，更像是为了使 $h_i$ 和 $\phi$ 维度保持一致。具体体现在：
$\phi_{i}=\mathbf{g}_{i} \circ \phi=\mathcal{T}\left(\mathbf{h}_{i}\right) \circ \phi$

$\mathbf{g}_{i}=\mathcal{T}\left(\mathbf{h}_{i}\right)=\sigma\left(\mathbf{W}_{g} \mathbf{h}_{i}+\mathbf{b}_{g}\right),$

Auxiliary Graph Reconstruction

这一部分为graph autoencoder引入了重构损失(reconstruction loss):
$\mathcal{L}_{r}\left(\mathbf{A}_{i}, \mathbf{X}_{i}\right)=\left\|\mathbf{A}_{i}-\operatorname{GNN}_{d e c}\left(\mathbf{Z}_{i}\right) \operatorname{GNN}_{\operatorname{dec}}^{T}\left(\mathbf{Z}_{i}\right)\right\|_{F}^{2}$
其中 $\mathbf{Z}_{i}=\operatorname{GNN}_{\text {enc}}\left(\mathbf{A}_{i}, \mathbf{H}_{i}\right)$ ， $\|\cdot\|_{F}$ 为Frobenius norm。