【图论文阅读】When to Pre-Train Graph Neural Networks? From Data Generation Perspective!-优快云博客

本文链接：https://blog.youkuaiyun.com/ye6pipipihou/article/details/136407774

本文提出W2PGNN框架，研究何时进行图神经网络预训练，通过探究预训练数据与下游任务的匹配度来优化预训练策略。实验表明，预训练的可行性与下游性能高度相关，W2PGNN有助于选择最适宜的预训练数据和减少计算资源消耗。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文来源：SIGKDD2023

为什么需要预训练图神经网络？

解决图机器学习任务中标签数据稀疏问题的潜在方法

预训练图神经网络是怎么做的？

从一组未标记的图数据中学习可转移的知识，使得学习到的知识可以便于适配下游任务。

预训练图神经网络面临什么挑战？

负迁移问题，尤其是当预训练使用的图与下游任务不是同一个领域时情况更为严重

已有工作如何解决这些挑战？
以往的研究通常从what to pre-train 和 how to pre-train的角度进行研究，即通过设计各种图预训练模型和微调策略来缓解负迁移。然而，在某些情况下，即使使用最先进的“预训练和微调”范式，仍然无法明显改善下游性能。

文章做了什么？
文章从数据的角度回答when to pre-train,提出了名为W2PGNN的通用框架。
探究在什么情况下下游任务可以从图预训练中受益，从而避免不必要的预训练和微调过程。
具体来说：如果下游数据可以由一个总结了预训练数据的generator以很高的概率生成，那么这些下游数据更有可能从预训练中受益。【本质是训练一个由预训练数据训练的generator，即预训练数据的分布与下游数据有相似的分布】

文章的挑战？
在于如何获得合适的图生成器，希望它不仅能继承预训练数据中可转移的拓扑模式，还能生成可行的下游图。

在这里插入图片描述

Contributions:

第一个研究何时预训练 GNN 问题的工作。
W2PGNN提供了几个实际应用场景：
(1) 提供一个图形预训练模型的应用范围;
(2) 衡量对下游数据进行预训练的可行性;
(3) 挖掘训练前的数据，以便在使用有限资源的情况下最大化下游性能;
从理论和实验层面证明了W2GNN的有效性。

W2PGNN框架：

组成：

输入空间:
包含节点的ego-network
生成器空间：
是所有图基的凸组合；
所获的图生成器其实是基的混合，且从理论上可以证明，混合版本仍然保留了原始图的性质以及可迁移的核心模式。
因此，图生成器𝑓（{𝛼𝑖}，{𝐵𝑖}）（混合图形），可以作为训练前数据的一个代表性和全面的总结，其中看不见的图具有不同的组合可以诱导出可转移的模式。
在这里插入图片描述 可能的下游空间：
文章认为：生成器空间中的生成器生成的所有图都可以从预训练中获益，并最终形成可能的下游空间。

Feasibility of Pre-training

定义：
在这里插入图片描述
由于上述问题比较难以直接求解，因此文章将其转换为一个易于处理的问题。

文章证明：如果一个生成器f能以100%的概率生成对应的下游图序列，那么f与下游图序列的之间的GW距离为0。

紧随的挑战：虽然此时该问题被转化为易于求解的问题，但是穷尽求解空间仍然是不现实的。

考虑到不同的下游数据可能体现了不同的可迁移模式，单个的生成器基函数的表达能力不足以涵盖所有的模式，因此文章提出了三种生成器基函数的候选方案：
Integrated graphon basis: 将input space包含的所有预训练图一起来拟合一个generator basis
**Domain graphon basis:**根据预训练数据所属领域划分，相同领域对应一个基函数
Topological graphon basis: 根据拓扑进行划分，相似的拓扑结构对应一个基函数
对W2PGNN中生成器空间和可能的下游空间的合理性进行了理论分析
在这里插入图片描述

可能的下游空间中生成的图可以继承生成器中关键的可迁移图模式，从而证明了可能的下游空间中的生成图可以从预训练中获益的合理性
在这里插入图片描述

Experiments

本文通过回答以下两个问题来评估其框架的有效性:
（1）给定预训练和下游的数据，W2PGNN 评估的可行性是否和下游的性能正相关，这也对应W2PGNN的第二种应用场景。
（2）当给定下游数据时，根据W2PGNN 评估的可行性所选的预训练数据是否确实对提升下游性能有帮助，这对应W2PGNN的第三种应用场景。

对于第一个问题：
文章计算了不同的方法计算出来的预训练可行性和最好的下游性能之间的皮尔森相关系数。
不管在节点分类还是图分类任务上，W2PGNN估计的可行性得到的皮尔森相关系数在大多数情况下的排名都最高。

节点分类问题中预估的预训练可行性与最好下游性能之间的皮尔逊相关系数。
- 图分类问题中预估的预训练可行性与最好下游性能之间的皮尔逊相关系数。
在所有的情况下，预训练的可行性和最佳的下游性能之间都有很强的正相关关系

节点分类任务的预训练数据选择结果，该结果表明：
（1） W2PGNN选择的预训练数据的下游性能排名第一，这是最适合下游任务的选择。
（2）使用所有的预训练数据来进行预训练并不总是可靠的选择。某些情况下选择部分预训练数据不仅可以改善下游性能，还可以减少计算资源的使用这对于预训练数据的选择和使用，提高效率。