Predicting the Silent Majority on Graphs: Knowledge Transferable Graph Neural Network

本文提出了一种名为KTGNN的模型,针对数据饥饿的VS-Graph中的沉默节点分类问题,通过知识自适应迁移和域适应策略,有效解决特征缺失和标签不足。实验证明其在公司财务风险预测和Twitter政治倾向预测等场景中超越了现有方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

发表在:2023的WWW

Background

data-hungry问题;现实中图的结构通常存在节点特征不完整、标签难获取、知识不完整、分布转移的问题.

根据data-hungry程度的不同,节点可以分为两类:
vocal node: 特征与标签丰富
silent node:特征与标签很少
具体例子:
社交网络预测政治立场的时候,政客/名人-vocal node,普通群众-silent node;
预测公司财务风险;公开财务信息的公司-vocal node, 不公开财务信息的公司-silent node
具有以上两种状态的节点的图被称为 VS-Graph.
传统的GNN无法直接解决在VS-Graph上的预测问题:

  1. data distribution shift 问题在vocal node和silent node之间存在,使得直接在两类节点上进行训练的效果会比较差;
  2. 特征缺失缺失的问题无法由传统的特征补全策略解决;

分布偏移(Distribution Shift)是指在机器学习和数据科学中,用于描述训练数据和测试数据之间的差异或不一致性。当训练数据和测试数据的分布不匹配时,就发生了分布偏移。

在这里插入图片描述

因此文章提出:Knowledge Transferable Graph Neural Network (KTGNN),一个用于学习 silent node 表征的方法,主要自适应地从vocal node中迁移知识.
文章主要考虑 特征补全(DAFC)、信息传递(DAMP)、最终分类器(DTC) 这三方面.

Related work

与现有工作的区别:现有工作主要是学习领域不变的特性;而这篇工作想把分类器的参数从vocal domain传递到silent domain,而不是专注于捕获领域不变的表示

OOD nodes: OOD nodes as nodes with labels unseen from the training set,也叫做分布之外的节点,这篇文章就是希望利用分布外节点的知识来提升模型在目标域的性能.
OOD节点的论文(KDD22)

contributions

  1. 定义了VS-Graph的问题,解决了预测silent majority的问题
  2. 设计了一种新的知识可转移图神经网络(KTGNN)模型,该模型通过域适应特征补全和消息传递模块保护域之间的差异性 ,设计基于kl-散度最小化的域可转移分类器 来增强对silent node的预测
  3. 在两个真实世界数据集上取得了超过SOTA的性能

Preliminary

在这里插入图片描述

2.2 Problem Defnition: Silent Node Classifcation on the VS-Graph

给定一张VS-Graph,其中silent nodes的数据远多于vocal nodes,且这两类节点的属性有不同分布,目标是利用vocal nodes的完整但脱离分布的信息去预测silent node的标签

3 EXPLORATORY ANALYSIS

通过以下两类分析,可以发现这两类节点共享的特征维度上存在明显的distribution-shift
3.1 单变量分析
在这里插入图片描述

3.2 多变量分析
在这里插入图片描述

4 METHODOLOGY

Domain Adapted Feature Complementor(DAFC)
在特征补全之前,首先将VS-Graph中的节点分为两部分,其中V+中的节点具有完整的特征,而V−中的节点具有不完整的特征。
在初始阶段。V+ = vocal node;V- = silent node
思路:通过多次迭代,将知识从vocal node迁移过来
在第一轮迭代的时候:
vocal node被用于补充与它们直接连接的silent node.
在这里插入图片描述是一个用于消除域差异的校准变量,主要用于补充属性未被发现的节点的特征信息

在这里插入图片描述
而对于那些没有与vocal node直接相连的silent node会从第二轮开始补足特征,直到算法收敛或者达到最大迭代次数.
因此,具备完整特征的V+集合会逐渐扩展,直到所有的silent nodes被加入该集合.
在这里插入图片描述

表示已观察到的属性之间的差异。

该模块的优化函数是:
在这里插入图片描述

Domain Adapted Message Passing (DAMP)
文章介绍了四种信息传递的方法:
vocal node -> silent node
silent node -> vocal node
vocal node -> vocal node
silent node -> silent node

但是,来自跨域邻居的分布外消息不应该直接传递给中心节点,否则域干扰将成为降低模型性能的噪声 .

  • For messages from cross-domain neighbors
    计算域差异比例因子,然后将源节点的OOD特征投影到目标节点的域中. 例如将vocal node 的特征投影到 silent node的域中,然后将投影后的特征传递给目标silent node.
    具体的过程是(该过程只针对跨域信息传递):
    基本更新思想依然是:源节点特征表示 * 信息传递的更新量
    其中 源节点特征表示 是被域差异校准过的;
    信息传递的更新量:一个邻居重要性函数
    在这里插入图片描述

Domain Transferable Classifer (DTC)
传统的knowledge transfer是学习一个能保留域不变信息的表征,但是这是在两个域的分布相似的情况下做的,但不满足本文的情况,因此文章的思路是:将优化过的源分类器的参数迁移到目标域.
文章的思路是将源分类器和目标分类器的知识转移过来,通过最小化它们之间的KL散度来引入理想的分类器。
在这里插入图片描述
为了预测静默多数,用vocal nodes训练源分类器,用silent nodes训练目标域分类器.
图中绿色的跨域转移模块是用于迁移原始域分类器到一个新生成的目标域分类器,输入是原始域分类器的参数,为了保证知识能从源域分类器和目标域分类器共同迁移到一个理想的分类器,文章最小化的损失函数是:这几个分类器之间的KL散度.
在这里插入图片描述
在这里插入图片描述
文章还考虑了分类器本身的损失和分布一致性损失,最终的损失函数是三个损失函数的结合.
在这里插入图片描述

5 Experiments

datasets:
在这里插入图片描述
Company: Company dataset is a VS-Graph based on 10641
real-world companies in China (provided by TianYanCha), and the
target is to classify each company into binary classes (risky/normal),
vocal node表示公开财务情况的公司,silent node表示没有公开财务情况的公司。

Twitter: crawled from Twitter,the target is to predict the political tendency (binary classes:democrat or republican) of civilians. 在这个V graph中,vocal node表示著名的政治家,silent node表示平民。

Baselines and Experimental Settings
在这里插入图片描述
文章对比的是silent node classification的性能:
在这里插入图片描述具有不同补充策略的模型的实验结果:
在这里插入图片描述
消融实验:
在这里插入图片描述

F1 Score and Loss Curve of KTGNN on Company dataset
在这里插入图片描述
文章尝试调整图的拓扑结构来验证文章方法的鲁棒性.
在这里插入图片描述

Representation Visualization
在这里插入图片描述

Conclusions

  1. 文章提出了一个在VS-Graph 上进行silent node classifcation 的问题,且这些silent node 面临着严重的data-hungry问题 (feature-missing and label scarcity)
  2. 文章设计了一个KTGNN的模型用于silent nodes分类,做法是自适应地将有用的知识从vocal node转移到silent node
  3. 实验效果有明显提升

Q1:要是存在多个连通分量,且只有部分连通分量中有vocal node, 这个算法只能保证一部分silent nodes的特征得到补全

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值