【GCN】以距离分区的角度考虑空域和频域的图卷积操作

原创已于 2025-01-06 08:57:50 修改 · 1k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #图论 #人工智能 #拓扑学 #矩阵

于 2024-12-28 22:20:56 首次发布

调研随笔专栏收录该内容

13 篇文章

订阅专栏

🚀本文简要梳理一下图卷积网络(Graph Convolutional Network)的计算问题。共分为以下4个部分，前两部分讲空域，后两部分讲频域：

🌔01 度矩阵 & 邻接矩阵
🌔02 基于空域的图卷积
🌔03 图拉普拉斯矩阵 & Chebyshev多项式
🌔04 基于频域的图卷积

无论是空域还是频域，图卷积一般都针对边权值为1的无向图。

⭐️假设现有以下的例子：
在这里插入图片描述
图例中共4个节点，假设每个节点的特征向量为2维，则为了计算方便，随便假设图的初始特征为：
$x=[10011100]4×2\mathbf{x}=\begin{bmatrix} 1&0\\ 0&1\\ 1&1\\ 0&0 \end{bmatrix}_{4\times2}$
接下来会结合此图的拓扑关系和初始特征进行讲解，请务必结合此例进行理解。

🌔01
度矩阵 & 邻接矩阵

本部分为空域图卷积奠定基础。

2.1 度矩阵

⭐️度矩阵是一个对角阵，对角线元素表示节点的度，即每一个节点与多少个其他节点直接相连，因而可以将例图的度矩阵书写如下：
$D=[3000020000200003]D=\begin{bmatrix}3&0&0&0\\ 0&2&0&0\\ 0&0&2&0\\ 0&0&0&3\end{bmatrix}$
若考虑自联通，则有：
$D˜=D+I=[4000030000300004]\~{D}=D+I=\begin{bmatrix}4&0&0&0\\ 0&3&0&0\\ 0&0&3&0\\ 0&0&0&4\end{bmatrix}$

2.2 邻接矩阵

⭐️对于例图，如果节点间是直接联通的那么就给邻接矩阵对应元素的值赋1，否则为0，自身不与自身联通，因而可以将邻接矩阵书写如下：
$A=[0111100110011110]A=\begin{bmatrix}0&1&1&1\\ 1&0&0&1\\ 1&0&0&1\\ 1&1&1&0\end{bmatrix}$
若考虑自联通，则有：
$A˜=A+I=[1111110110111111]\~{A}=A+I=\begin{bmatrix}1&1&1&1\\ 1&1&0&1\\ 1&0&1&1\\ 1&1&1&1\end{bmatrix}$
考虑到数值稳定性，有时需要对邻接矩阵进行归一化处理，这里采用对称归一化：
$A^=D−1/2AD−1/2=[01616161600161600161616160]\hat{A}=D^{-1/2}AD^{-1/2}= \begin{bmatrix} 0 & \frac{1}{\sqrt{6}} & \frac{1}{\sqrt{6}} & \frac{1}{\sqrt{6}} \\ \frac{1}{\sqrt{6}} & 0 & 0 & \frac{1}{\sqrt{6}} \\ \frac{1}{\sqrt{6}} & 0 & 0 & \frac{1}{\sqrt{6}} \\ \frac{1}{\sqrt{6}} & \frac{1}{\sqrt{6}} & \frac{1}{\sqrt{6}} & 0 \end{bmatrix}$
或者，考虑到自联通：
$A^′=D˜−1/2A˜D˜−1/2=[14143143141431301331430131331413313314]\hat{A}'=\~D^{-1/2}\~A\~D^{-1/2}= \begin{bmatrix} \frac{1}{4} & \frac{1}{4\sqrt{3}} & \frac{1}{4\sqrt{3}} & \frac{1}{4} \\ \frac{1}{4\sqrt{3}} & \frac{1}{3} & 0 & \frac{1}{3\sqrt{3}} \\ \frac{1}{4\sqrt{3}} & 0 & \frac{1}{3} & \frac{1}{3\sqrt{3}} \\ \frac{1}{4} & \frac{1}{3\sqrt{3}} & \frac{1}{3\sqrt{3}} & \frac{1}{4} \end{bmatrix}$
另外，在深度学习中，还可以为邻接矩阵赋予一个可学习的权重矩阵 $M$ ，将之与邻接矩阵逐元素相乘作为新的邻接矩阵(度矩阵也相应变化)：
$A=A⊙MA=A\odot M$
如无特殊说明，在接下来的案例中 $M = I$ 。

🌔02
基于空域的图卷积

⭐️由于图卷积中特征的传播常常要把自身节点的特征考虑在内，因而使用的是带自联通的版本。

参考第一部分，可以计算得到自联通的归一化邻接矩阵：
$A^′=[14143143141431301331430131331413313314]\hat{A}'= \begin{bmatrix} \frac{1}{4} & \frac{1}{4\sqrt{3}} & \frac{1}{4\sqrt{3}} & \frac{1}{4} \\ \frac{1}{4\sqrt{3}} & \frac{1}{3} & 0 & \frac{1}{3\sqrt{3}} \\ \frac{1}{4\sqrt{3}} & 0 & \frac{1}{3} & \frac{1}{3\sqrt{3}} \\ \frac{1}{4} & \frac{1}{3\sqrt{3}} & \frac{1}{3\sqrt{3}} & \frac{1}{4} \end{bmatrix}$

使用下式对特征进行传播更新(不考虑非线性激活函数)：
$y=A^′xW\mathbf{y}=\hat{A}'\mathbf{x}W$
其中 $y,x\mathbf{y},\mathbf{x}$ 分别为输出和输入的图特征， $A^′\hat{A}'$ 为归一化邻接矩阵,用于根据图的拓扑关系来传播特征， $W$ 为该层卷积中可学习的权重参数，用于调整特征的值，这里假设参数为：
$W=[1111]2×2W=\begin{bmatrix}1&1\\1&1\end{bmatrix}_{2\times2}$
则特征传播过程具体可写为(仔细观察矩阵相乘的过程，就可以理解特征传播过程了)：
$y=A^′xW=[14143143141431301331430131331413313314][10011100][1111]=[14(1)+143(0)+143(1)+14(0)⋯143(1)+13(0)+0(1)+133(0)⋯143(1)+0(0)+13(1)+133(0)⋯14(1)+133(0)+133(1)+14(0)⋯]=[14+14324314313143+131314+133233]\mathbf{y}=\hat{A}'\mathbf{x}W\\ =\begin{bmatrix} \frac{1}{4} & \frac{1}{4\sqrt{3}} & \frac{1}{4\sqrt{3}} & \frac{1}{4} \\ \frac{1}{4\sqrt{3}} & \frac{1}{3} & 0 & \frac{1}{3\sqrt{3}} \\ \frac{1}{4\sqrt{3}} & 0 & \frac{1}{3} & \frac{1}{3\sqrt{3}} \\ \frac{1}{4} & \frac{1}{3\sqrt{3}} & \frac{1}{3\sqrt{3}} & \frac{1}{4} \end{bmatrix} \begin{bmatrix} 1&0\\ 0&1\\ 1&1\\ 0&0 \end{bmatrix} \begin{bmatrix}1&1\\1&1\end{bmatrix}= \begin{bmatrix} \frac{1}{4}(1) + \frac{1}{4\sqrt{3}}(0) + \frac{1}{4\sqrt{3}}(1) + \frac{1}{4}(0) & \cdots \\ \frac{1}{4\sqrt{3}}(1) + \frac{1}{3}(0) + 0(1) + \frac{1}{3\sqrt{3}}(0) & \cdots \\ \frac{1}{4\sqrt{3}}(1) + 0(0) + \frac{1}{3}(1) + \frac{1}{3\sqrt{3}}(0) & \cdots \\ \frac{1}{4}(1) + \frac{1}{3\sqrt{3}}(0) + \frac{1}{3\sqrt{3}}(1) + \frac{1}{4}(0) & \cdots \end{bmatrix}\\ =\begin{bmatrix} \frac{1}{4}+\frac{1}{4\sqrt{3}}&\frac{2}{4\sqrt{3}}\\ \frac{1}{4\sqrt{3}}& \frac{1}{3}\\ \frac{1}{4\sqrt{3}}+ \frac{1}{3}& \frac{1}{3}\\ \frac{1}{4}+ \frac{1}{3\sqrt{3}}&\frac{2}{3\sqrt{3}} \end{bmatrix}$

🔥说明：这里采用的是 $A^′\hat{A}'$ 来传播特征，即对于每个节点，考虑其自身特征和相邻节点的特征进行传播。

如果按照距离分区考虑的话(这里距离指的是连接两节点的最小边数)，就是仅考虑了距离为0的节点和距离为1的节点，而其他更高距离的节点并没有纳入考虑， $A^′\hat{A}'$ 仅仅是距离为0的邻接矩阵和距离为1的邻接矩阵之和。

如果要扩大图卷积的感受野，改变 $A^′\hat{A}'$ 的构成即可，即将更多距离的邻接矩阵加入进来。

🌔03
图拉普拉斯矩阵 & Chebyshev多项式

本部分为频域图卷积奠定基础。

3.1 图拉普拉斯矩阵

⭐️注意，图拉普拉斯矩阵仅考虑最为狭义的邻接矩阵，即距离为1的邻接矩阵。(下一部分会解释为什么)

图拉普拉斯矩阵定义如下:
$L=D−A=[3−1−1−1−120−1−102−1−1−1−13]L=D-A=\begin{bmatrix}3&-1&-1&-1\\ -1&2&0&-1\\ -1&0&2&-1\\ -1&-1&-1&3\end{bmatrix}$
考虑到数值稳定性，有时需要对图拉普拉斯矩阵进行归一化处理，这里采用对称归一化：
$L^=I−A^=[34−143−143−14−143230−133−143023−133−14−133−13334]\hat{L}=I-\hat{A}=\begin{bmatrix} \frac{3}{4} & -\frac{1}{4\sqrt{3}} & -\frac{1}{4\sqrt{3}} & -\frac{1}{4} \\ -\frac{1}{4\sqrt{3}} & \frac{2}{3} & 0 & -\frac{1}{3\sqrt{3}} \\ -\frac{1}{4\sqrt{3}} & 0 & \frac{2}{3} & -\frac{1}{3\sqrt{3}} \\ -\frac{1}{4} & -\frac{1}{3\sqrt{3}} & -\frac{1}{3\sqrt{3}} & \frac{3}{4} \end{bmatrix}$
可以发现，图拉普拉斯矩阵中元素正负交加，说明其具有一种“微分”的性质，可以用作图谱的频域描述，具体来说，对图拉普拉斯矩阵进行特征分解，即(无论是否归一化，同理)：
$L=UΛUTL=U\Lambda U^T$
其中,
$①{\color{#E16B8C}{①}}$ $Λ\Lambda$ 为特征值对角矩阵，由特征值 $λi\lambda_i$ 组成， $λi\lambda_i$ 称为图的频率，对图频谱采用某种滤波手段，可用 $gθ(Λ)g_\theta(\Lambda)$ 表示，且有：
$gθ(L)=Ugθ(Λ)UTg_\theta(L)=Ug_\theta(\Lambda)U^T$
且由于无向图的性质， $Λ\Lambda$ 为半正定矩阵，其特征值均非负，即满足： $λ∈[0,λmax]\lambda\in[0, \lambda_{max}]$

$②{\color{#E16B8C}{②}}$ $U$ 为特征向量矩阵，由特征向量 $u_i$ 组成， $u_i$ 表示对应频率下的基函数。且可用 $U^T$ 把空域特征投影到频域，也可用 $U$ 把频域特征投影到空域(由于 $L$ 为对称矩阵， $U$ 与 $U^T$ 为正交阵)：
$X=UTxx=UX\mathbf{X}=U^T\mathbf{x}\\ \mathbf{x}=U\mathbf{X}$

3.2 Chebyshev多项式

⭐️这里先简要介绍Chebyshev多项式逼近函数的原理和过程，具体如何应用应用在下一部分讲解。

由于第一类Chebyshev多项式在傅里叶分析和多项式逼近中被广泛应用，这里的Chebyshev多项式特指第一类。

Chebyshev多项式通过递归定义：
$k≥2T_0(x)=1,\;T_1(x)=x\\ T_k(x)=2xT_{k-1}(x)-T_{k-2}(x),\;k\geq2$
其用于定义正交性的权重函数为：
$x∈[−1,1]w(x)=\frac{1}{\sqrt{1-x^2}},\;x\in[-1,1]$
则Chebyshev多项式对于 $w (x)$ 在 $[- 1, 1]$ 保持正交，即：
$k≠m\int_{-1}^1T_k(x)T_m(x)w(x)dx=0,\;k\neq m$
此时，对于满足以下条件的函数 $h (x)$ ，其可用Chebyshev多项式逼近：
$∫−11∣h(x)∣2w(x)dx<∞\int_{-1}^{1}|h(x)|^2w(x)dx<\infty$
而在不严格的情况下，只要满足 $x∈[−1,1]x\in[-1,1]$ ，而不需要满足上面的条件，就可以进行函数逼近，此时函数可以表示为：
$h(x)≈∑k=0K−1θkTk(x)h(x)\approx\sum_{k=0}^{K-1}\theta_kT_k(x)$
其中， $K$ 是用以截断的阶数，可以控制逼近程度，用以平衡计算开销和逼近效果。 $θk\theta_k$ 为可学习的系数。

🌔04
基于频域的图卷积

⭐️基于频域的图卷积公式如下，这里 $L$ 为经过对称归一化的图拉普拉斯矩阵(不写为 $L^\hat{L}$ 是为了表述方便)：
$y=Ugθ(Λ)UTx=gθ(L)x\mathbf{y}=Ug_\theta(\Lambda)U^T\mathbf{x}=g_\theta(L)\mathbf{x}$
可以分以下三步骤进行理解：

首先，把特征从空域转换到频域： $UTxU^T\mathbf{x}$
然后，利用滤波器对频域特征进行滤波： $gθ(Λ)UTxg_\theta(\Lambda)U^T\mathbf{x}$
最后，再把特征转回空域： $Ugθ(Λ)UTxUg_\theta(\Lambda)U^T\mathbf{x}$

由于在实际操作中直接求解滤波器 $gθ(⋅)g_\theta(\cdot)$ 比较困难，于是使用Chebyshev多项式逼近的方式。

首先，通过尺度变换将特征值尺度从 $[0,λmax][0,\lambda_{max}]$ 转化为 $[- 1, 1]$ 以满足Chebyshev多项式逼近的范围要求：
$L‾=2L/λmax−1\overline{L}=2L/\lambda_{max}-1$
接着，使用下式进行多项式逼近(由于计算比较麻烦，这里就不展开了，但每个符号对应的数值都是可以通过前文得到的)：
$y=gθ(L)x≈∑k=0K−1θkTk(L‾)x\mathbf{y}=g_\theta(L)\mathbf{x}\approx\sum_{k=0}^{K-1}\theta_kT_k(\overline{L})\mathbf{x}$
因此，对 $gθ(⋅)g_\theta(\cdot)$ 的学习就转换成了对一系列 $θk\theta_k$ 的学习。