【ACM】作者从聚合后节点相似性的角度重新审视异配性,并定义了新的同质性度量方法。基于聚合相似度度量这一指标,作者提出了一种新的框架,称为自适应信道混合(Adaptive Channel Mixing,ACM),它通过自适应地利用聚合、多样化和身份信道来提取更丰富的局部信息,以对应不同的节点异配性情况。
发表在2022年NeurIPS会议上,作者是McGill University的,引用量155,开源代码可以复现。
NeurIPS会议简介:全称Conference on Neural Information Processing Systems(神经信息处理系统大会),机器学习和计算神经科学领域的顶级学术会议,CCF A。
查询会议:
- 会伴:https://www.myhuiban.com/
- CCF deadline:https://ccfddl.github.io/
原文和开源代码链接:
0、核心内容
背景与问题:传统的图神经网络基于同质性假设,即连接的节点倾向于具有相似的属性。然而,最近的研究发现,在某些数据集上,GNNs相对于传统的神经网络并没有表现出优势。这被认为是由于异配性问题,即同质性假设并不总是成立。
同质性度量:论文首先回顾了现有同质性度量方法,并指出了它们只考虑标签一致性的缺点。
异配性分析:作者从聚合后节点相似性的角度重新审视异配性,并定义了新的同质性度量方法。
局部多样化操作:论文证明了局部多样化操作可以有效解决一些异配性的不利情况。
自适应信道混合(ACM)框架:提出了一种新的框架,称为自适应信道混合(Adaptive Channel Mixing,ACM),它通过自适应地利用聚合、多样化和身份信道来提取更丰富的局部信息,以对应不同的节点异配性情况。
试验评估:ACM在10个基准节点分类任务上进行了评估,结果表明,ACM增强的基线模型在大多数任务上都取得了显著的性能提升,超过了现有的最先进GNN模型,同时没有带来显著的计算负担。
贡献:论文的主要贡献包括提出了从聚合后节点相似性角度分析异配性的新视角,提出了与现有方法不同的ACM框架,并通过实验验证了其有效性。
相关工作:论文讨论了其他研究者在处理GNNs中异配性问题时的工作,包括MixHop、Geom-GCN、H2GCN、CPGNN、FAGCN和GPRGNN等。
结论与局限性:论文总结了研究成果,并指出了当前方法的局限性,例如在处理某些有害异配性情况时的不足。
1、本文贡献
① 第一个从聚合后节点相似性的角度分析异配性;
② 提出ACM框架,与具有多通道的自适应滤波器库和现有GNN有很大不同:
传统的自适应滤波器通道为每一个滤波器使用一个标量权值,这个权值由所有节点共享;相比之下,ACM提供了一种机制,使不同的节点可以学习不同的权重,利用来自不同通道的信息来解释不同的局部异配性。
与现有的利用高频信号的高阶滤波器和全局特性而需要更多的计算资源不同,ACM通过自适应地考虑节点局部信息成功解决了异配性问题。
③ 与现有的试图促进高表达能力的学习过滤器不同,ACM的目标是,当给定具有一定表达能力的滤波器时,我们可以以某种方式从额外的通道中提取更丰富的信息来解决异配性。这使ACM更灵活,也更容易实现。
2、先验知识
① 什么是图-标签一致性(graph-label consistency)?
图-标签一致性是指在图数据结构中,节点的连接模式与节点标签(或类别)之间的一致性。在图神经网络的研究和应用中,这个概念尤为重要,因为它关系到图上的信息传播和节点分类任务的性能。
具体来说,如果一个图具有较高的图-标签一致性,那么意味着图中相同类别的节点更有可能彼此相连,而不同类别的节点则较少相连。这种情况下,图中的社区结构或群组比较明显,同质性现象突出。同质性是指节点倾向于与具有相似特征或标签的节点建立连接。
在论文中提到的现有同质性度量方法,如边同质性、节点同质性和类同质性,都是基于图-标签一致性来定义的,用以量化图中节点连接模式与节点标签一致的程度。这些度量通常在0到1的范围内,值越接近1表示图的同质性越强,即图中的连接更多地发生在相同标签的节点之间。
然而,论文指出仅考虑图-标签一致性的现有同质性度量方法存在局限性,因为它们不能充分描述异配性对基于聚合的GNNs的影响。异配性是指图中不同类别的节点之间存在连接,这可能会导致信息在不同类别的节点间错误传播,影响GNNs的性能。为了解决这个问题,论文提出了从聚合后节点相似性的角度来分析异配性,并定义了新的同质性度量方法。
② GCN损失函数定义
重归一化的亲和矩阵(the renormalized affinity matrix)本质上是为图中的每个节点添加了一个自循环,并在GCN中广泛应用如下:
GCN可以通过最小化以下交叉熵损失来训练:
其中:
L s y m + A s y m = I , A s y m = D − 1 / 2 A D − 1 / 2 L r w + A r w = I , A r w = D − 1 A L_{sym} + A_{sym} = I,\ A_{sym} = D^{-1/2}AD^{-1/2}\\ L_{rw} + A_{rw} = I,\ A_{rw} = D^{-1}A\\ Lsym+Asym=I, Asym=D−1/2AD−1/2Lrw+Arw=I, Arw=D−1A
- 对称归一化拉普拉斯算子: L s y m L_{sym} Lsym
- 对称归一化亲和矩阵: A s y m A_{sym} Asym
- 随机游走归一化拉普拉斯算子: L r w L_{rw} Lrw
- 随机游走归一化亲和矩阵: A r w A_{rw} Arw
- 重归一化后: A ^ = A + I , D ^ = D + I \hat{A} = A+I,\hat{D} = D+I A^=A+I,D^=D+I 。
③ 什么是gram matrix?
在机器学习和数学中,Gram矩阵(也称为Gramian矩阵)是一个矩阵 G G G,其元素由两个向量集合的內积构成。具体来说,如果有向量集合 { x 1 , x 2 , … … , x n } \{x_1,x_2,……,x_n\} {
x1,x2,……,xn},那么Gram矩阵G定义为:
G i j = x i ⋅ x j G_{ij}=x_i·x_j Gij=xi⋅