Task05 超大图上的节点表征学习

最新推荐文章于 2022-09-17 19:26:47 发布

原创最新推荐文章于 2022-09-17 19:26:47 发布 · 346 阅读

0 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

16 篇文章

订阅专栏

Cluster-GCN是一种解决图神经网络计算效率低下的方法，通过节点聚类减少计算复杂度。它将大图分割成多个簇，每次处理部分簇构成的子图，避免了全图操作，降低了内存需求和计算时间。在保持不错精度的同时，如当num_parts=1500时，准确率可达0.95，有效缓解了邻域扩展问题。

随着图神经网络层数增加，计算成本呈指数增加。包存整个图的信息和每个节点的表征消耗了大量内存空间。Cluster-GCN提出了一种新的图神经网络的训练方法。

Cluster-GCN方法概括

利用图节点聚类的算法将一个图划分成 $c$ 个簇，每一次选择几个簇的节点和这些节点对应的边构成一个子图。
簇内部边的数量比簇之间的数量要多得多，可以提高表征利用率。
每一次随机选择多个簇来组成一个batch，这样不会丢失簇之间的边，也不会有batch内部分布偏差太大。

Cluster-GCN方法详细分析

假设GCN有 $L$ 层，所有层的表征维度都是 $F$ ,有 $N$ 个节点，每个节点的平均维度是 $d$ 。

普通GCN空间复杂度: $O (N F L)$
时间复杂度
由于要与权重矩阵相乘，所以计算任意节点表征的时间开销是 $O(F^2)$ ,平均来说，一个节点的梯度计算的时间复杂度为 $O(d^LF^2)$ 。
节点表征的利用率可以反映出计算的效率。如果节点 $i$ 在 $l$ 层的表征 $z_{i}^{(l)}$ 被计算并在 $l + 1$ 层的表征计算中被重复使用 $u$ 次，那么我们说 $z_{i}^{(l)}$ 的表征利用率为 $u$ 。对于随机抽样的mini-batch SGD， $u$ 非常小，因为图通常是大且稀疏的。假设 $u$ 是一个小常数（节点间同样距离的邻接节点重叠率小），那么mini-batch SGD的训练方式对每个batch需要计算 $O(bdL)O\left(b d^{L}\right)$ 的表征，于是每次参数更新需要 $O(bdLF2)O\left(b d^{L} F^{2}\right)$ 的时间，每个epoch需要 $O(NdLF2)O\left(N d^{L} F^{2}\right)$ 的时间，这被称为邻域扩展问题。相反的是，全梯度下降训练具有最大的表征利用率——每个节点表征将在上一层被重复使用平均节点度次。因此，全梯度下降法在每个epoch中只需要计算 $O (N L)$ 的表征，这意味着平均下来只需要 $O (L)$ 的表征计算就可以获得一个节点的梯度。
Cluster-GCN的方法
对于一个图 $G$ ，我们将其节点划分为 $c$ 个簇： $V=[V1,⋯Vc]\mathcal{V}=\left[\mathcal{V}{1}, \cdots \mathcal{V}{c}\right]$ ，其中 $Vt\mathcal{V}{t}$ 由第 $t$ 个簇中的节点组成，对应的我们有 $c$ 个子图。可以据此把邻接矩阵分成块矩阵。此步骤可以通过图聚类算法划分。
作业
num_parts=1500时，准确率可以达到0.95