[解读] Semi-Supervised Classification with Graph Convolutional Networks

本文提出一种用于图结构数据半监督学习的可扩展图卷积网络(GCN),基于谱图卷积局部一阶近似,适用于大规模网络节点分类。模型通过调整传播法则,利用图的邻接矩阵和节点特征进行多层传播,最终通过交叉熵损失函数进行优化。

作者受到谱图卷积的局部一阶近似的启发, 提出一种可扩展的图卷积网络, 可用于具有图结构数据的半监督学习.

论文链接: https://arxiv.org/abs/1609.02907v4

相关工作

本文考虑节点分类的半监督问题, 即所有节点中只有一部分的标签是已知的. (Zhu et al., 2003; Zhou et al., 2004; Belkin et al.,2006; Weston et al., 2012) 等提出的方法, 标签信息通过某种显式的正则化基于图的正则化项来表达, 并且标签 信息是连续的. 例如在损失函数中使用一个图拉普拉斯正则化项:
L = L 0 + λ L r e g ,  with  L r e g = ∑ i , j A i j ∥ f ( X i ) − f ( X j ) ∥ 2 = f ( X ) ⊤ Δ f ( X ) \mathcal{L}=\mathcal{L}_{0}+\lambda \mathcal{L}_{\mathrm{reg}}, \quad \text { with } \quad \mathcal{L}_{\mathrm{reg}}=\sum_{i, j} A_{i j}\left\|f\left(X_{i}\right)-f\left(X_{j}\right)\right\|^{2}=f(X)^{\top} \Delta f(X) L=L0+λLreg, with Lreg=i,jAijf(Xi)f(Xj)2=f(X)Δf(X)
具体解释请参考原文. 作者指出, 这个损失函数依赖于一个假设, 即图中相连接的节点差不多具有相同的标签. 此假设可能会限制模型的表达能力, 因为图的边不一定需要编码点之间的相似性, 而可能包含其他信息.

本文的的方法基于 Bruna et al. (2014) 提出的谱图卷积神经网络. 后来由 Defferrard et al. (2016) 扩展为快速局部卷积. 与这些工作不同的是本文考虑在大规模网络节点的分类任务.

本文方法

本文提出一种多层的图卷积网络 (GCN), 按层的传播法则如下:
H ( l + 1 ) = σ ( D ~ − 1 2 A ~ D ~ − 1 2 H ( l ) W ( l ) ) , H^{(l+1)}=\sigma\left(\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} H^{(l)} W^{(l)}\right), H(l+1)=σ(D~21A~D~21H(l)W(l)),
其中 A ~ = A + I N \tilde{A}=A+I_{N} A~=A+IN 是无向图 G \mathcal{G} G 的带有自连接的邻接矩阵, D ~ i i = ∑ j A ~ i j \tilde{D}_{i i}=\sum_{j} \tilde{A}_{i j} D~ii=jA~ij 是节点的度, W ( l ) W^{(l)} W(l) 是可训练的权重矩阵, σ \sigma σ 是激活函数.

下面考虑半监督学习的情形. 在训练之前, 可以先计算出 A ^ = D ~ − 1 2 A ~ D ~ − 1 2 \hat{A}=\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} A^=D~21A~D~21, 于是一个两层的模型可以表达为
Z = f ( X , A ) = softmax ⁡ ( A ^ ReLU ⁡ ( A ^ X W ( 0 ) ) W ( 1 ) ) . Z=f(X, A)=\operatorname{softmax}\left(\hat{A} \operatorname{ReLU}\left(\hat{A} X W^{(0)}\right) W^{(1)}\right). Z=f(X,A)=softmax(A^ReLU(A^XW(0))W(1)).
输入层权重矩阵 W ( 0 ) ∈ R C × H W^{(0)} \in \mathbb{R}^{C \times H} W(0)RC×H, 输出层权重矩阵 W ( 1 ) ∈ R H × F W^{(1)} \in \mathbb{R}^{H \times F} W(1)RH×F.

对于所有带标签的样本, 定义其交叉熵损失函数为
L = − ∑ l ∈ Y L ∑ f = 1 F Y l f ln ⁡ Z l f . \mathcal{L}=-\sum_{l \in \mathcal{Y}_{L}} \sum_{f=1}^{F} Y_{l f} \ln Z_{l f}. L=lYLf=1FYlflnZlf.
Y L \mathcal{Y}_{L} YL 是所有带标签节点的索引集合, Y Y Y 即是真实标签, Z Z Z 是网络输出. 经过训练后, 便可以得到无标签节点的标签.

参考

Michael Defferrard, Xavier Bresson, and Pierre Vandergheynst. Convolutional neural networks on graphs with fast localized spectral filtering. In Advances in neural information processing systems (NIPS), 2016.

### 关于《Semi-Supervised Classification with Graph Convolutional Networks》的中文翻译 以下是《Semi-Supervised Classification with Graph Convolutional Networks》文章的核心内容及其翻译: #### 图卷积网络简介 该研究提出了一种基于图结构数据的半监督分类方法,利用图卷积神经网络(Graph Convolutional Network, GCN)来处理带有图结构的数据集。这种方法通过谱图理论中的局部一阶近似技术,能够有效地对图中的节点特征以及其邻域关系进行编码[^1]。 #### 半监督学习背景 在许多实际场景中,获取标签的成本较高,因此仅有一部分数据被标注,而大部分数据未被标记。这种情况下,半监督学习成为一种重要的解决方案。本文提出的模型能够在少量标注样本的基础上,充分利用大量无标签数据的信息来进行预测和分类任务[^2]。 #### 方法核心 作者引入了一个简单的两层图卷积网络架构,其中每一层都由一个线性变换矩阵乘法操作组成,并结合激活函数以增加非线性特性。具体来说,输入为节点特征向量 X 和描述节点间连接关系的邻接矩阵 A,在经过多轮传播更新之后得到最终表示 H^(L),再通过 softmax 函数转化为概率分布形式完成分类工作[^3]。 #### 实验验证 为了证明所提方案的有效性和优越性能,实验选取了多个标准基准测试集合进行了对比分析。结果显示相比于其他传统算法或者复杂深度学习框架而言,本方法不仅计算效率更高而且取得了更好的效果表现。 --- ```python import numpy as np from tensorflow.keras.layers import Dense from tensorflow.keras.models import Model def gcn_layer(A_hat, input_dim, output_dim): """ 定义单层GCN 参数: A_hat (numpy.ndarray): 预处理后的邻接矩阵 input_dim (int): 输入维度大小 output_dim (int): 输出维度大小 返回: function: GCN 层定义 """ W = np.random.randn(input_dim, output_dim) * 0.01 # 初始化权重参数 b = np.zeros((output_dim,)) def layer(X): return np.dot(np.dot(A_hat, X), W) + b return layer # 构建简单模型实例化过程省略... ``` 上述代码片段展示了如何构建基本版本的一层GCN实现方式之一。 --- #### 总结 通过对图结构特性的深入挖掘,《Semi-Supervised Classification with Graph Convolutional Networks》成功设计出了适用于大规模稀疏图上的高效半监督分类器——即著名的GCNs家族成员之一。它凭借简洁优雅的设计思路赢得了广泛认可并推动了后续一系列改进型变体的发展方向。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值