【论文阅读】Semi-supervised classification with graph convolutional networks

论文地址:[1609.02907] Semi-Supervised Classification with Graph Convolutional Networks (arxiv.org)

引言

图神经网络GCN旨在解决的问题是“图中节点的分类问题,且数据集只有一小部分的节点有标签”,称之为“graph-based semi-supervised learning”。

这类问题在GCN之前的一种解决方法用如下公式表示:

这里的 L0是指有标签的那部分节点的分类损失,而 Lreg 是指对于没有标签的节点来讲,根据相邻节点的相似性,限制模型在无标签节点上的输出与和它相邻节点上的输出接近( Aij 是邻接矩阵的元素)。这是个很强的假设,许多实际情况并不是这样的,因此GCN旨在消除这个显式的图正则化限制。

公式

GCN的方式是直接将图中节点的连接关系A(邻接矩阵)作为模型的输入直接参与计算,而不是像上面那个方法那样“稍微有些隐晦地利用”。

GCN的层之间的递推公式如下:

Hl~ 是神经网络第l层的激活输出, H0~ 就是 X (各个节点的值组成的矩阵);

Wl 是可学习的权重矩阵;

A~=A+I ,是邻接矩阵再加上自连接,对角线元素从0变为1,表示每个节点和自身是连接着的;

D~ 是节点的度矩阵, Dii=∑j Aij ,代表与节点i直接连接的节点数(包括此节点自身)。

至于这个公式的来源,论文有提到推理过程,出发点是“图傅里叶变换、图卷积”,经过各种各样的简化(包括为了减少计算复杂度用切比雪夫多项式大致估算并做截断、利用神经网络尺度可学习的特性假设矩阵的最大特征值为2等),就得到了上述公式。

图傅里叶变换、图卷积我并不了解,是通过博客Dwzb:图傅里叶变换大致有了些了解,可参考。

GCN网络

损失的计算只在有标签的那部分节点上计算,不考虑无标签节点的输出。

此外,网络的输入中邻接矩阵A是在层与层的推进中是不变的(这与我之前的一个误解有关,我之前以为图神经网络是一种可以学习并输出图的连接结构的网络,这个假设导致刚开始看的时候总是理解不了,后来才醒悟GCN并不是为了学习图结构而设计,图结构必须是预先就知道并作为网络的输入。GCN不具备学习图结构的能力,只是对利用图结构更好更准确地对节点进行分类,解决的是分类问题。)

相关工作、实验、结果、讨论

(还没看)

工程实践用

作者公开了GCN的源码,地址:tkipf/pygcn: Graph Convolutional Networks in PyTorch (github.com)

一些带讲解的博客:

CODE 01: GCN on Pytorch - 知乎 (zhihu.com)

(1条消息) pytorch框架下—GCN代码详细解读_MelvinDong的博客-优快云博客_gcn代码

此外,好像有一些与图数据、模型等相关的库,如Pytorch-Geometric、NYU的DeepGraphLibrary等,是从博客(1条消息) [PyG] 1.如何使用GCN完成一个最基本的训练过程(含GCN实现)_sooner高的博客-优快云博客_gcn训练里看到的,以后有时间我要去学习了解下,说不定在用到的时候能省不少事。

### 回答1: 半监督分类是指利用同时带有标记和未标记数据的分类方法。这种方法旨在利用未标记数据来帮助提高分类器的性能,从而减少需要标记数据的数量。通常,半监督分类通过利用未标记数据的分布信息来构建分类器,并且这种方法在许多实际应用中都取得了很好的结果。 ### 回答2: 半监督分类,是指利用一部分数据进行有监督学习,以此来提高整个数据集的分类性能的方法。相较于全监督学习,半监督学习允许在训练过程中使用未标记的数据,只需要有一定数量的标记数据就可以实现高效的分类任务。 半监督分类的基础是“同分布假设”,即未标记的数据与标记数据属于同一分布。该假设基于一个假设性的结果:在标记和未标记的数据中,存在一些潜在的相似性。由此,使用未标记数据训练模型应当能够提高分类性能。 半监督分类主要有两种方法,主动学习和自我训练。主动学习依靠人类专家指导,根据样本的不确定性选择新的样本添加到训练集中,从而提高整体的性能。自我训练则是从已标记的样本中训练分类器,然后将分类器应用于未标记的样本,将那些分类器能够高置信度的样本添加到已标记集合中,不断迭代以提高性能。 半监督分类的应用广泛,特别是在文本分类、图像分类、目标检测等领域中。由于标记数据的难以获取和昂贵的成本,半监督分类显得尤为重要。它不仅能够提高分类性能,而且提高了数据利用效率。虽然使用未标记的数据可能会带来一定的风险,但正确地使用半监督分类方法将提高训练效果,并使其比单纯的有监督学习更加稳健和可靠。 ### 回答3: 半监督分类(Semi-supervised Classification)是一种机器学习中的作业,它使用一小部分有标签的数据和大量未标记的数据来训练模型,从而进行分类。半监督分类主要是因为标记数据很昂贵或难以获取,因此利用未标记的数据来增强模型的学习能力。 通过半监督分类算法,可以把未标记的数据加入到模型训练过程中,从而提高模型的准确性和分类效果。在半监督分类中,未标记数据的利用对于模型的效果至关重要。因此,需要使用一些优秀的技术来处理未标记数据,例如半监督学习常用的技术,包括基于图的算法、核方法、自编码器等等。 半监督学习的优点是可以使用很少的有标签数据来训练模型,从而节省时间和成本。此外,半监督学习还可以提高模型的复杂性,从而提高模型的泛化能力。在实际应用中,半监督学习算法已经得到广泛应用,例如图像分类、文本分类、视频分类等等。 总之,半监督分类是一种重要的机器学习技术,通过利用未标记的数据来提高模型的学习能力,从而提高模型的准确性和分类效果。未来半监督学习算法还将得到越来越广泛的应用。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

野生的野蛮人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值