在过去一两年,各种各样的NLP预训练模型疯狂涌现,如Bert和XLNet. 受益于好的预训练策略,我们只要在各个NLP进行简单的微调就可以取得非常好的效果.
那么,有没有合适的图神经网络预训练模型,使得我们只要在各种图挖掘任务上简单的微调一下就取得很好的效果呢?
本文是对斯坦福大学Jure组和哈佛大学生物医疗中心联合发表 ICLR2020 (标题错写为ICML)Strategies for Pre-training Graph Neural Networks的解读.
作者: Y.Shu
作者主页: https://www.zhihu.com/people/dai-tu-zhe
编辑: Houye
摘要
许多机器学习的应用要求模型对测试样本进行准确的预判,这些样本与训练样本的分布不同,而在训练过程中,特定任务的标签很少。应对这一挑战的有效方法是在数据丰富的相关任务上对模型进行预训练,然后在感兴趣的下游任务上进行微调。虽然预训练在许多语言和视觉领域已经很有效,但如何在图数据集上有效地使用预训练仍然是一个开放的问题。
在本文中,我们开发了一种新的策略和自我监督的方法来预训练图神经网络(GNNs)。作者的策略成功的关键是在单个节点以及整个图的层面上对一个有表现力的GNN进行预训练,使GNN能够同时学习有用的局部和全局表示。作者在多个图分类数据集上系统地研究了预训练。作者发现,在整个图或单个节点水平上对GNN进行预训练的天真策略,其改进效果有限,甚至会导致许多下游任务的负转移。相比之下,作者的策略避免了负转移,并在下游任务中显著提高了泛化能力,使ROC-AUC的绝对改进率达到了9.4%,比非预训练的模型提高了9.4%,在分子特性预测和蛋白质功能预测方面达到了最先进的性能。
1 介绍
迁移学习指的是,最初在某些任务上训练的模型,在不同但相关的任务上被重新配置。深度转移学习在计算机视觉(Donahue等人,2014;Girshick等人,2014;Zeiler & Fergus,2014)和自然语言处理(Devlin等人,2019;Peters等人,2018;Mikolov等人,2013)中取得了巨大的成功。尽管是一种有效的迁移学习方法,但很少有研究将预训练泛化到图数据上。
预训练有可能为图数据集上的学习提供以下两个基本挑战的有吸引力的解决方案(Pan & Yang, 2009; Hendrycks等人,2019)。首先,特定于任务的标签数据可能极其稀缺。这个问题在重要的科学领域的图数据集中更加严重,例如化学和生物学,在这些领域中,数据标签化(例如,湿式实验室中的生物实验)是资源和时间密集型的(Zitnik等人,2018)。其次,来自真实世界应用的图形数据往往包含分布外样本,这意味着训练集中的图形与测试集中的图形在结构上有很大的差异。在现实世界的图数据集中,失分布预测是常见的,例如,当人们想要预测一个全新的、刚刚合成的分子的化学特性时,这个分子与迄今为止合成的所有分子不同,从而与训练集中的所有分子不同。
然而,对图数据