[解读] Semi-Supervised Classification with Graph Convolutional Networks

最新推荐文章于 2024-05-13 17:14:48 发布

原创最新推荐文章于 2024-05-13 17:14:48 发布 · 705 阅读

0 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

24 篇文章

订阅专栏

本文提出一种用于图结构数据半监督学习的可扩展图卷积网络(GCN)，基于谱图卷积局部一阶近似，适用于大规模网络节点分类。模型通过调整传播法则，利用图的邻接矩阵和节点特征进行多层传播，最终通过交叉熵损失函数进行优化。

作者受到谱图卷积的局部一阶近似的启发, 提出一种可扩展的图卷积网络, 可用于具有图结构数据的半监督学习.

论文链接: https://arxiv.org/abs/1609.02907v4

相关工作

本文考虑节点分类的半监督问题, 即所有节点中只有一部分的标签是已知的. (Zhu et al., 2003; Zhou et al., 2004; Belkin et al.,2006; Weston et al., 2012) 等提出的方法, 标签信息通过某种显式的正则化基于图的正则化项来表达, 并且标签信息是连续的. 例如在损失函数中使用一个图拉普拉斯正则化项:
$\mathcal{L}=\mathcal{L}_{0}+\lambda \mathcal{L}_{\mathrm{reg}}, \quad \text { with } \quad \mathcal{L}_{\mathrm{reg}}=\sum_{i, j} A_{i j}\left\|f\left(X_{i}\right)-f\left(X_{j}\right)\right\|^{2}=f(X)^{\top} \Delta f(X)$
具体解释请参考原文. 作者指出, 这个损失函数依赖于一个假设, 即图中相连接的节点差不多具有相同的标签. 此假设可能会限制模型的表达能力, 因为图的边不一定需要编码点之间的相似性, 而可能包含其他信息.

本文的的方法基于 Bruna et al. (2014) 提出的谱图卷积神经网络. 后来由 Defferrard et al. (2016) 扩展为快速局部卷积. 与这些工作不同的是本文考虑在大规模网络节点的分类任务.

本文方法

本文提出一种多层的图卷积网络 (GCN), 按层的传播法则如下:
$H^{(l+1)}=\sigma\left(\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} H^{(l)} W^{(l)}\right),$
其中 $\tilde{A}=A+I_{N}$ 是无向图 $\mathcal{G}$ 的带有自连接的邻接矩阵, $\tilde{D}_{i i}=\sum_{j} \tilde{A}_{i j}$ 是节点的度, $W^{(l)}$ 是可训练的权重矩阵, $\sigma$ 是激活函数.

下面考虑半监督学习的情形. 在训练之前, 可以先计算出 $\hat{A}=\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}}$ , 于是一个两层的模型可以表达为
$A)=\operatorname{softmax}\left(\hat{A} \operatorname{ReLU}\left(\hat{A} X W^{(0)}\right) W^{(1)}\right).$
输入层权重矩阵 $W^{(0)} \in \mathbb{R}^{C \times H}$ , 输出层权重矩阵 $W^{(1)} \in \mathbb{R}^{H \times F}$ .

对于所有带标签的样本, 定义其交叉熵损失函数为
$\mathcal{L}=-\sum_{l \in \mathcal{Y}_{L}} \sum_{f=1}^{F} Y_{l f} \ln Z_{l f}.$
$\mathcal{Y}_{L}$ 是所有带标签节点的索引集合, $Y$ 即是真实标签, $Z$ 是网络输出. 经过训练后, 便可以得到无标签节点的标签.

参考

Michael Defferrard, Xavier Bresson, and Pierre Vandergheynst. Convolutional neural networks on graphs with fast localized spectral filtering. In Advances in neural information processing systems (NIPS), 2016.