这是一篇关于图神经网络在网络可用信息(Network Usable Information,UNI)测量和利用方面的研究论文。这篇文章提出了一个名为NetInfoF的框架,旨在评估图结构和节点特征中蕴含的信息量,并利用这些信息来解决图任务(如链接预测和节点分类)。
一作是卡内基梅隆大学的大佬,发表在2024年ICLR会议上,引用量0(太新了暂未被引用)。
ICLR会议简介:全称International Conference on Learning Representations(国际学习表征会议),深度学习顶会。
查询会议:
- 会伴:https://www.myhuiban.com/
- CCF deadline:https://ccfddl.github.io/
原文和开源代码链接:
- paper原文:https://arxiv.org/abs/2402.07999
- 开源代码:https://github.com/amazon-science/Network-Usable-Info-Framework
0、核心内容
给定一个节点属性图和一个图任务(链接预测或节点分类),我们能否判断一个图神经网络(GNN)是否表现良好?更具体地说,图的结构和节点特征是否为任务携带了足够的可用信息?我们的目标是(1)开发一个快速工具来测量图结构和节点特征中有多少信息,(2)如果有足够的信息,利用这些信息来解决任务。
我们提出了NETINFOF,一个包括NETINFOF_PROBE和NETINFOF_ACT的框架,分别用于测量和利用网络可用信息(Network Usable Information,NUI)。给定一个图数据,NETINFOF_PROBE在没有任何模型训练的情况下测量NUI,NETINFOF_ACT解决了链接预测和节点分类任务,这两个模块共享相同的主干。
综上所述,NETINFOF具有以下显著优势:(a)通用,处理链接预测和节点分类任务;(b)原理性,具有理论保证和封闭解;©有效性,得益于提出的节点相似性的调整;(d)可伸缩性,随输入大小线性缩放。
在我们精心设计的合成数据集中,NETINFOF正确地识别了NUI的真相,并且是唯一对所有图场景都具有鲁棒性的方法。应用于真实世界的数据集,与一般的GNN基线相比,NETINFOF在链接预测的12次中赢了11次。
(引自摘要)
图1:NETINFOF在真实数据集针对链接预测任务赢了(大部分点在直线 x = y x=y x=y上或在直线下方)
图1体现了本文方法的有效性。
1、展开研究
① 相关工作
相关工作有:信息论(information theory)、GNNs。
信息论:
随机变量之间依赖性的典型度量是互信息(mutual information)。它在顺序特征选择中广泛应用,但其精确计算困难,特别是在连续随机变量和高维数据上。
最近的研究提出了V-information的概念。然而,该定义需要一个训练的模型,获得成本昂贵,并且依赖于训练的质量。
只有少数工作研究了图中的可用信息,但在我们的问题设置中不可行,因为有三个挑战,即,我们想要的方法必须:
- 不需要任何模型的工作,而现有工作需要模型训练;
- 确定图中哪些组件是可用的,而现有工作忽略了单个组件;
- 可以推广到不同的图任务,而现有工作只专注于节点分类。
注:本文对组件的定义——一个图数据由多个组件构成,如图的结构和节点特征。
GNNs:
表1:与其他相关工作相比,NETINFOF匹配了所有属性。
② 提出问题
在本节中,我们将定义我们的问题,并回答两个重要的问题:
- 如何测量图中各组成部分的预测信息?
- 如何将图信息与任务上的性能指标联系起来?
我们发现,当一个GNN的传播表示比图结构或节点特征的信息更丰富时,它能够在任务上表现良好。
③ 节点嵌入的五个组件
为了判断一个GNN是否会表现良好,我们可以分析它的节点嵌入,但它们只有在训练后才可用。因此,我们建议分析线性GNNs中衍生的节点嵌入。更具体地说,我们推导了节点嵌入的5个组成部分,它们可以表示图结构、节点特征和通过结构传播的特征的信息。
组件1:结构嵌入(C1:Structure Embedding)
结构嵌入U是邻接矩阵A的左奇异向量(Singular Vector),通过奇异值分解(Singular Value Decomposition,SVD)提取。其目的是捕获图中的社区信息。
组件2:邻域嵌入(C2:Neighborhood Embedding)
邻域嵌入R的目的是捕获节点的局部高阶邻域信息。通过模拟Personalized PageRank(PPR),我们构造了一个随机游走矩阵 A P P R A_{PPR} APPR,其中每个元素是一个节点在 k P P R − s t e p k_{PPR}-step kPPR−step步随机游走的 T T T次试验中访问另一个节点的次数。通过进行随机游走,局部高阶结构将在整个图中突出显示。为了使 A P P R A_{PPR} APPR更稀疏并加快嵌入提取速度,我们消除了只访问一次的噪声元素。通过SVD提取 A P P R A_{PPR} APPR的左奇异向量作为邻居嵌入 R R R。
组件3:特征嵌入(C3:Feature Embedding)
给定原始节点特征X,我们用预处理后的节点特征 F = g ( X ) F=g(X)