【论文解读】Learning on Graphs with Out-of-Distribution Nodes——KDD2022

本文探讨了图神经网络在存在分布外(OOD)节点情况下的应用,提出了OODGAT模型,该模型能够有效地区分分布内和分布外节点,并在多个任务上表现出色。

论文地址:Learning on Graphs with Out-of-Distribution Nodes | Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining

代码:GitHub - SongYYYY/KDD22-OODGAT: This is the implementation of OODGAT from KDD'22: Learning on Graphs with Out-of-Distribution Nodes.

目录

摘要

1. INTRODUCTION

2. RELATED WORK

2.1 Graph Neural Network

2.2 Outlier Detection

2.3 Semi-supervised Learning With Distribution Mismatch

3 LEARNING ON GRAPHS WITH OUT-OF-DISTRIBUTION NODES

3.1 Problem Formulation

3.2 Semi-supervised Outlier Detection

 3.3 Semi-supervised Node Classification

4 OODGAT: END-TO-END MODEL FOR SSOD AND SSNC

4.1 Attention Mechanism: From Node to Edge

4.2 Regularizer

 5 EXPERIMENTS

 5.1 Experimental Setup

5.2 Main Results

 5.3 Ablation Study

6 CONCLUSION

摘要

图形神经网络(GNN)是在Graph类型的数据上执行预测任务的最新模型。虽然现有的GNN在与图相关的各种任务上表现出了出色的性能,但很少关注在训练和测试期间图中存在分布外(OOD)节点的场景。借用CV和NLP的概念,本文将OOD节点定义为具有训练集中看不到的标签的节点。由于许多网络都是由程序自动构建的,因此真实世界的图形通常含有噪声,并且可能包含未知分布的节点。在这项工作中,定义了具有分布外节点的图学习问题。目标:1)检测不属于已知分布的节点,2)将其余节点分类为已知类之一。本文证明了图中的连接模式对于异常值检测是有用的,并提出了一种新的GNN模型,即分布外图注意网络(OODGAT),它显式地模拟了不同类型节点之间的交互,并在特征传播过程中将分布内的点与分布外的点分离。大量实验表明,OODGAT在很大程度上优于现有的异常值检测方法,同时在分布内分类方面更好或可比。

1. INTRODUCTION

图形神经网络(GNN)已成为在图上执行预测任务的重要工具。在各种应用中,GNN最重要的任务之一是半监督节点分类(SSNC)。在SSNC中,GNN聚合来自相邻节点的信息,并生成在邻域内平滑的表示,从而减轻了分类的难度。

近年来,许多研究已经开始考虑现实环境中的图学习任务,例如带有标签噪声的图、低标签率和分布偏移。然而,很少有工作考虑在执行SSNC的图中存在分布外(OOD)节点的场景。通过使用术语“OOD”,借用了CV和NLP的概念,这意味着样本的标签在训练集中是看不到的。在图中,这种问题很常见,因为图通常是以增量方式构建的,其中由于与现有节点的连接而添加了新节点,在大多数情况下,无法保证所有节点都必须连接到来自同一分布的其他节点。例如,我们希望将论文网络中的论文分类为AI相关主题,例如,深度学习、强化学习和优化方法。论文网络是通过网络爬虫获得的,该爬虫采用广度优先搜索(BFS)策略,并在多次迭代中不断探索引用现有论文的论文。当搜索停止时,网络中不能保证只包含已知类别的节点,因为科学论文经常会引用其他研究领域的文章,例如,人工智能论文可能引用神经科学和数学方面的论文。在现实世界的网络中,来自不相关类别的节点的比例甚至可能高于来自感兴趣类别的节点。给定这样一个有噪声的图,我们的任务是预测与某个已知类对应的节点的标签,并识别不属于其中任何一个类的节点。

在CV和NLP中,OOD检测一直是一个历史悠久的热门研究领域。[9] 证明了神经网络倾向于为分布内(ID)样本分配比分布外(OOD)样本更高的最大softmax值,并建议使用神经网络产生的最大softmax值(MSP)作为OOD检测的分数。其他方法试图通过修改模型结构[30,34]、采用特定的不确定性度量[14]或利用标记的异常值[10]来提高检测性能。

与上述仅关注于在推理时识别OOD样本的方法不同,图中OOD节点的存在使任务更具挑战性。首先,在CV和NLP的传统设置中,离群值只出现在测试集中,而在图中,通常给定整张图进行训练,将问题从检测未知未知转移到已知未知。如何利用异常值的可用性是成功的关键。其次,CV和NLP中的分类器通常是以完全监督的方式训练的,具有丰富的标记数据,而对于图,最常见的节点分类方法是以半监督的方式用有限的标记数据训练GNN。由于GNN采用的消息传递框架,ID和OOD节点的潜在特征可能会相互影响。因此,研究分布内和分布外的点之间的信息流如何影响分布内分类和分布外检测的性能是非常重要的。[21]中也出现了类似的问题,作者研究了当标记和未标记数据来自不同分布时,半监督学习(SSL)方法的性能。然而,在基于图的SSNC领域,这一问题尚未探索。第三,由于我们的目的是在一个联合框架中解决节点分类和分布外节点检测,一个自然的问题是如何将这两个任务组合成一个统一的模型,以及如何平衡一个任务对另一个任务的影响。

在这项工作中,首先分析了OOD节点对GNN图学习任务的影响。证明对于同态性高的图,由于特征传播导致的平滑效应,基于消息传播的GNN天生就擅长检测异常值。此外,本文发现移除ID和OOD节点之间的边,同时保留每个簇内的内部边,可以获得最佳的整体性能。基于这些发现,本文提出了一种新的GNN模型——分布图外注意力网络(OODGAT),该模型利用了注意力机制,并显式地建模了ID和OOD节点之间的交互作用。实验表明,OODGAT在检测和分类方面都优于所有基线,甚至超过了直接在测试集上调整的事后检测器。

本文说是第一个用OOD节点正式定义图学习问题的人(但2020年的OpenWGL已经提出了类似的问题)。[36]考虑了类似的设置,其中图形也包含OOD节点。他们开发了一个贝叶斯框架,通过计算多个不确定性度量来检测异常值。我们的工作不同之处在于,我们从网络几何的角度分析GNN的基本优势,并利用图结构中包含的信息以高效优雅的方式解决问题。

本文的主要贡献:

  • 形式化定义了含有OOD节点的图学习问题,并明确了问题的挑战。
  • 从图形结构的角度分析了这个问题,并提出了实现良好性能的基本设计
  • 提出了一种新的GNN模型,称为OODGAT,它明确区分特征传播过程中的ID和OOD节点,并在一个联合框架中解决了节点分类和分布外检测问题
  • 对各种图数据集进行了广泛的实验,以证明该方法的有效性。

2. RELATED WORK

2.1 Graph Neural Network

图形神经网络(GNN)在与图相关的各种应用中表现出了出色的性能。在这项工作中,重点研究了半监督节点分类(SSNC)问题。在SSNC中,GNN聚合来自相邻节点的特征并生成一个潜在空间,其中节点嵌入之间的相似性对应于几何空间中节点之间的连接模式。最常用的GNN包括图卷积网络(GCN)、图注意网络(GAT)和GraphSAGE。

2.2 Outlier Detection

离群点检测,又称OOD检测,已成为各个领域的热门研究领域。根据训练期间OOD数据的可用性,OOD检测器可分为三种类型,即无监督、有监督和半监督方法。

无监督方法。无监督的方法仅利用分内布数据来训练异常值检测器。在各种技术中,最常用的包括ODIN[16]和Mahalanobis距离[14]。这些方法被称为事后检测器,因为它们假设分类网络已经在分布内的数据中进行了训练,并且检测器通过校准其输出概率或利用其潜在空间建立在预训练的分类器之上。其他方法,如[25,28,30],除了原始分类网络之外,还需要训练专门为OOD检测设计的附加模型。无监督方法在训练期间不利用大量的未标记数据,并且只能找到次优解,因为它们将分类和异常值检测视为两个独立的任务。

有监督方法。监督方法假设在训练期间可以访问一组OOD样本[8,10,13]。这样的方法使用ID训练数据上的交叉熵损失以端到端的方式训练分类器以最小化分类误差,同时使用标记的OOD数据上的置信惩罚损失以保持低预测置信度。例如,[13]将KL散度项应用于OOD样本,以确保其预测接近均匀分布。有监督检测器通常优于无监督检测器,因为它们能够利用训练OOD数据提供的分布信息。然而,OOD样本要么来自不同但相关的数据集[10],要么由GAN[18]生成,这限制了其在图领域中的应用,在图领域,人们无法找到替代OOD数据集,也无法轻松生成伪OOD数据。

半监督方法。受半监督学习的启发,最近的OOD检测研究还考虑了在训练期间未标记集合可用的情况[1,34,37]。[37]定义了一个新的任务,称为“半监督OOD检测”,其中给了一组有限的标记分布内样本和一组较大的分布内和分布外样本的混合集,其标签在训练期间无法得知。他们使用对比学习来获得未标记样本的潜在表示,并计算其与分布内数据中心的距离作为OOD分数。[1] 采用类似的设置,但解决了集成的问题。这些方法的缺点包括:1)它们不是为图设计的,因此不能利用结构信息;2) 它们通常需要训练额外的检测模型,并且不能在同一框架中处理分类和检测。

2.3 Semi-supervised Learning With Distribution Mismatch

SSL假定只能访问一小组标记数据和一大组没有标记信息的样本。Oliver等人[21]指出,当标记数据和未标记数据之间存在类分布不匹配时,现有的SSL方法往往会降低原始分类性能。在他们的发现之后,研究人员开发了对OOD样本具有鲁棒性的SSL方法,其性能至少与完全监督的学习一样好[6,12,35]。这种方法的关键思想很简单:它们试图检测和删除未标记数据的OOD部分,并仅在剩余的已纯化集上应用SSL技术。这种设置与我们的设置相似,因为他们也将问题视为两个任务,即对分布数据的半监督学习和对未标记集的异常值检测,其中每个任务都对另一个任务有影响。然而,这些方法通过将正则化项添加到原始分类损失(例如,交叉熵)来执行SSL,如VAT[20]和最小熵正则化[5],而在图域中,SSNC通常使用GNN来完成,GNN以隐式方式实现半监督学习。

3 LEARNING ON GRAPHS WITH OUT-OF-DISTRIBUTION NODES

3.1 Problem Formulation

G = (V, E),其中V表示节点集,E表示边集,邻接矩阵A\in \{0, 1\}^{|N|\times |N|。每个节点𝑣 在图中与特征向量x_v和标签y_v相对应,总体特征矩阵和类向量可以分别用Xy表示。在SSNC中,节点集可以进一步划分为V=V_l\cup V_u,其中V_l 指在训练期间标签可访问的节点集。类似地,特征矩阵和类向量可以分为

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值