论文笔记–GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training
简介:KDD 2020发表的一篇关于预训练应用在图神经网络的论文,目前引用量120+。目标是学习一个初始化的GNN encoder,但是实验效果不佳, GCC 表现逼进甚至不如目前的GIN。论文链接🔗
摘要
图表征学习(Graph representation learning)已经成为解决现实问题的一种强有力的技术。各种下游图学习任务如 node classification, similarity search and graph classification,都得益于其最新发展。然而,现有的图表征学习技术方法主要关注于特定问题,并为每个图数据集训练一个专用模型,该模型通常在其他领域数据上不work。
受NLP和CV的最新进展的影响,我们设计了 GCC —— 一种自监督图神经网络预训练框架 —— 以捕获跨多个网络的通用网络拓扑结构特性。我们将GCC的预训练任务设计为 网络内和跨网络的 subgraph instance discrimination ,并利用对比学习(Contrastice learning)使图形神经网络能够学习 内在的和可转移的结构表示。
本文在三个图学习任务和十个图数据集上进行了广泛的实验。结果表明,在一组不同的数据集上预先训练的GCC,对于特定任务, 可以获得与baseline 相似的或更好的性能。这表明pre-training和fine-tuning范式为图形表表征学习提供了巨大的潜力。
1 引言
Hypothesis. Representative graph structural patterns are universal and transferable across networks.
在过去二十年中, network science research的主要焦点一直是discover和abstracting不同网络背后的普遍结构特性。然而,在过去几年中,Graph learning的范式已经从结构模式发现转变为Graph representation learning ,这是由深度学习的最新进展推动的。具体的说,Graph representation learning将图的顶点、边或子图转换为低维嵌入,从而保留图的重要结构信息。然后可以将学习到的嵌入输入到下游任务的机器学习模型中。
然而到目前为止,大多数图表示学习的工作都集中于学习a signal graph 或 a fixed set of graphs的表示,在跨任务的研究上很少。本质上,这些representation learning models旨在针对每个数据集学习特定的网络结构模式。例如,在Facebook社交图网络上学习到的 DeepWalk embedding model不能应用于其他图上面。这里自然而然就引出了一个问题: can we universally learn transferable representative graph embeddings from networks?
在NLP、CV和其他领域也提出了类似的问题。迄今为止,最好的解决方案是在self-supervised的环境下,在 a large dataset 上 预训练 a representation learning model。预训练的核心是使用预训练的模型作为一个良好的初始化,以便对没有见过的数据集上的任务进行微调。例如,BERT设计了语言模型预训练任务,以从大型语料库中学习Transformer编码器然后通过微调,使预先训练的Transformer编码器适应各种NLP任务。
受这一点和通用图结构模式的启发,我们研究了预训练representation l