基于结构感知图学习的正-无标签节点分类,Positive-Unlabeled Node Classification with Structure-aware Graph Learning

上一期讲了Dist-PU loss,这一期讲一下Dist-PU loss在图上的应用。

《Positive-Unlabeled Node Classification with Structure-aware Graph Learning》这一篇文章。

在这篇文章中,主要解决的是二分类的问题。基于结构感知的节点分类:

摘要主要讲了图节点分类的常用案例,并且提出了基于图结构对P-U节点进行分类,就是假定数据中只有正向标签和无标签两种类型,然后进行分类,分出正负标签。 

 

图1. 从引文网络中挖掘特定领域的论文。 

在这里详细介绍P-U学习:PU (positive -unlabeled)学习是指二分类问题中的一种特殊情况, 即部分训练数据被标记为正数据,其余未标记的数据可以是正 数据,也可以是负数据。现有的PU学习方法大致可以分为基于 先验的方法和基于伪标签的方法两种。 

基于先验的方法假设类先验的知识,即未标记样本中正样本的比例,并利用它来设计用于PU学习的特殊损失函数。例如 uPU[4]、nnPU[9]和Dist-PU[20],它们基于不同的假设具有不同 形式的损失函数。其他相关工作,如[2,6],将其他类型的监督引入到PU学习中,例如[2]中使用自定进度的模型蒸馏。

相比之下,基于伪标签的方法使用两个启发式步骤:首先, 从未标记的数据中识别可靠的负样本,然后使用额外的伪标签进行(半)监督学习。例如,PUbN[7]使用nnPU预训练的模型来识别未标记数据中的高置信度负样本。PULNS[10]引入强化学习来获得有效的负样本选择器。

下面介绍了P-U loss的设计方案和公式推理证明思路。

加入结构正则化项:虽然距离感知PU损失在非带链节点之间分配不同的优先级,但它仍然忽略了节点之间的成对关系。因此,我们提出了一种基于图结构的正则化项,以促进对相邻节点的相似表示和最终预测。

总结:在本文中,我们提出利用图结构有利于P-U节点分类。我们首先提出了一种距离感知损失函数,利用图结构中的同质性为无标签节点引入更准确的监督。理论分析表明,最小化所提出的损失会导致最小化正标签和负标签的预期损失。我们还提出了一种基于图结构的正则化器,以进一步提高模型性能。不同数据集的实验结果证明了我们所提出方法的有效性。

Semi-supervised classification with graph convolutional networks (GCNs) is a method for predicting labels for nodes in a graph. GCNs are a type of neural network that operates on graph-structured data, where each node in the graph represents an entity (such as a person, a product, or a webpage) and edges represent relationships between entities. The semi-supervised classification problem arises when we have a graph where only a small subset of nodes have labels, and we want to predict the labels of the remaining nodes. GCNs can be used to solve this problem by learning to propagate information through the graph, using the labeled nodes as anchors. The key idea behind GCNs is to use a graph convolution operation to aggregate information from a node's neighbors, and then use this aggregated information to update the node's representation. This operation is then repeated over multiple layers, allowing the network to capture increasingly complex relationships between nodes. To train a GCN for semi-supervised classification, we use a combination of labeled and unlabeled nodes as input, and optimize a loss function that encourages the network to correctly predict the labels of the labeled nodes while also encouraging the network to produce smooth predictions across the graph. Overall, semi-supervised classification with GCNs is a powerful and flexible method for predicting labels on graph-structured data, and has been successfully applied to a wide range of applications including social network analysis, drug discovery, and recommendation systems.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

医学小达人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值