GraphSAGE：Inductive graph model 归纳式图模型

最新推荐文章于 2025-06-08 19:52:08 发布

原创最新推荐文章于 2025-06-08 19:52:08 发布 · 889 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #自然语言处理

图机器学习专栏收录该内容

1 篇文章

订阅专栏

本文介绍了图神经网络（GNN）中的inductive模型——GraphSAGE，它克服了transductive模型的局限性，能够在新节点出现时无需重新训练。GraphSAGE通过采样和聚合邻节点信息生成节点嵌入。文中提到了不同类型的聚合函数，如均值聚合、LSTM聚合和池化聚合，并讨论了它们的性质。此外，文章还概述了无监督和监督学习在GraphSAGE中的应用，以及一种增强节点间差异性的无监督损失函数。

部署运行你感兴趣的模型镜像

论文：Inductive Representation Learning on Large Graphs
链接：https://arxiv.org/abs/1706.02216.

图源源论文

Inductive model

在GNN基础介绍中我们曾提到，基础的GNN、GCN是transductive learning，可以理解为半监督学习。在我们构建的graph中包含训练节点和测试节点，虽然我们不知道测试节点的label，但是我们从这些节点中获取了信息，这种transductive模型一个很明显的局限性就在于无法进行在线测试。当输入新节点之后，我们需要重新构图训练模型，而GraphSAGE则是一个Inductive的模型，具有更强的落地应用价值。

GraphSAGE

SAGE：SAmple and aggreGatE

Instead of training individual embeddings for each node, we learn a function that generates embeddings by sampling and aggregating features from a node’s local neighborhood.

论文摘要部分提到了这一模型的关键思想在于学习一个能从邻节点采样聚合后生成node embedding的函数。图源源论文
整个流程如上图所示，主要包括三个部分

对图中每个顶点邻居顶点进行采样（因为每个节点的度是不一致的，为了计算高效，为每个节点采样固定数量的邻居）
聚合采样得到的邻居顶点的信息，更新node features
根据顶点的embedding进行下游任务处理

在这里插入图片描述
上面伪代码展示了GraphSAGE前向传播生成embedding的过程。

aggregator

论文中测试了多种聚合函数的性能。另外，聚合函数必须满足

invariant to permutations of its inputs

聚合函数的对称性（symmetry property）确保了神经网络模型可以被训练且可以应用于任意顺序的顶点邻居特征集合上。

Mean aggregator 每个维度的均值。均值聚合近似等价在transducttive GCN框架中的卷积传播规则
LSTM aggregator。LSTM不具有置换不变性（permutation invariant），因为它们以一个序列的方式处理输入。因此，需要先对邻居节点随机顺序，然后将邻居序列的embedding作为LSTM的输入。
Pooling aggregator（max pooling or mean pooling）

train model

论文提供了无监督学习和监督学习两种方式。监督学习应用于下游任务，而无监督的损失：
$J_{\mathcal{G}}\left(\mathbf{z}_{u}\right)=-\log \left(\sigma\left(\mathbf{z}_{u}^{\top} \mathbf{z}_{v}\right)\right)-Q \cdot \mathbb{E}_{v_{n} \sim P_{n}(v)} \log \left(\sigma\left(-\mathbf{z}_{u}^{\top} \mathbf{z}_{v_{n}}\right)\right)$

这一graph-based loss function对output representations使用SGD进行优化，使不相邻的节点表示差异增大，使用内积来衡量相似度。

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

图片生成

Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型，相比 3.0 版本，它提升了图像质量、运行速度和硬件效率