前言
题目: Simplifying Graph Convolutional Networks
会议: ICML 2019
论文地址:Simplifying Graph Convolutional Networks
GCN可以简单概括为三个步骤:邻居节点特征聚合、线性转换和非线性特征提取。本文证明了GCN能work的原因不在于非线性特征提取,而仅仅是因为对邻居节点特征进行了聚合。鉴于此,本文对GCN进行了简化,去掉了GCN中的非线性激活函数,将整个GCN简化为对预处理特征的直接多类逻辑回归,这种简化大大加速了训练过程,同时保持了不错的性能。
1. 简单图卷积
这里首先回忆一下Kipf提出的GCN。
1.1 GCN
在GCN中,初始的节点表示向量就为节点特征向量,即:
H
(
0
)
=
X
H^{(0)}=X
H(0)=X
在单个图卷积层中,节点状态的更新分为三个步骤:
- Feature propagation,特征传播。具体来讲,就是将目标节点的特征向量和其邻居节点的特征向量进行平均:
这里实际上是加权平均,可以参考PyG中对GCN的定义:
即权重为两个节点度开根号的乘积分之一,由于第一张图中的公式没有对图中所有节点添加自环,所以节点的度需要加上1。
假设将图的邻接矩阵进行归一化:
那么上述特征传播过程可以很容易地被写成一个简单矩阵操作:
直观地说,特征传播过程通过将邻居节点的特征平均来对目标节点的表示向量进行局部平滑,并且这种传播过程让通过链接相连的两个节点上最终有着类似的预测结果。
-
Feature transformation and nonlinear transition,特征变换和非线性变换。节点特征通过局部平滑后,需要对平滑后的节点特征表示进行线性变换,以便映射到我们需要的维度。同时,在线性变换后,通常我们需要将其再经过一个非线性的激活函数,如ReLU。具体来讲,上述过程可以描述为:
上述12步骤对应单层GCN的操作,我们通过堆叠多层GCNConv来多次进行上述两个步骤。对于一个 K K K层的GCN,最终可以得到 H ( k ) H^{(k)} H(k)。 -
Classifier,分类。对于节点分类,与标准MLP类似,我们使用softmax分类器进行预测:
以上内容就是GCN的具体原理。
1.2 SGC
在传统MLP中,更深的层可以增加模型的表现力,因为它允许创建特征层次,例如在第一层特征的基础上构建第二层特征。在GCN中,卷积层有第二个重要的功能:
- 通过对邻居节点的特征进行平均以得到新的特征。这意味着,在 k k k层之后,每一个节点将从它的所有 k k k阶邻居节点获取特征信息,这种效果类似于卷积神经网络,GCN深度增加可以增加内部特征的接受域。尽管卷积可以从增加深度中获益,但通常我们很难通过堆叠MLP来获得模型性能的提升。
因此,本文作者大胆假设,GCN中的非线性操作不是至关重要的,GCN的性能主要由局部邻居的特征平均来决定,也就是特征传播过程来决定。
因此,作者将GCN中的非线性操作去掉,只保留最终的softmax分类函数,以得到简化后的GCN。值得注意的是,简化后的GCN是完全线性的,如下所示:
通过与传统的GCN比较:
我们发现,简化后的GCN不再有非线性的激活函数
R
e
L
U
ReLU
ReLU。
将上述简化后的GCN的表达式进行简化就得到了SGC:
观察上式可知,SGC由一个固定的特征提取/平滑部分
X
ˉ
=
S
K
X
\bar{X}=S^{K}X
Xˉ=SKX和一个线性逻辑回归分类器
Y
^
=
s
o
f
t
m
a
x
(
X
ˉ
Θ
)
\hat{Y}=\mathcal{softmax}(\bar{X}\Theta)
Y^=softmax(XˉΘ)组成。由于
X
ˉ
\bar{X}
Xˉ的计算是固定的,也就是不需要权重,因此特征提取/平滑部分其本质上相当于一个特征预处理步骤,模型的整个训练可以简化为对预处理特征
X
ˉ
\bar{X}
Xˉ的直接多类逻辑回归。
GCN和SGC可以概括如下:
2. 谱分析
这一节从图卷积的角度来研究SGC,并证明了SGC在图谱域上对应一个固定的滤波器。此外,作者表明,在原始图中添加自环可以有效地缩小底层图谱,在这个缩放的谱域上,SGC充当了一个低通滤波器,在图上产生平滑的特征。
2.1 图卷积
定义图拉普拉斯矩阵:
Δ
=
D
−
A
\Delta=D-A
Δ=D−A
其中
D
D
D为度矩阵,
A
A
A为邻接矩阵。
对称归一化的拉普拉斯矩阵:
Δ
s
y
m
=
D
−
1
2
Δ
D
−
1
2
\Delta_{sym}=D^{-\frac{1}{2}}\Delta D^{-\frac{1}{2}}
Δsym=D−21ΔD−21
拉普拉斯矩阵的特征分解:
Δ
=
U
Λ
U
T
\Delta=U\Lambda U^T
Δ=UΛUT
其中
U
∈
R
n
×
n
U \in R^{n \times n}
U∈Rn×n为特征向量构成的矩阵,
Λ
\Lambda
Λ为特征值构成的对角矩阵。拉普拉斯矩阵的特征分解允许我们在图域上定义傅立叶变换,其中特征向量表示傅立叶模,特征值表示图的频率。
设
x
∈
R
n
x \in R^n
x∈Rn表示图顶点上的信号,我们定义
x
x
x的傅里叶变换为:
x
^
=
U
T
x
\hat{x}=U^Tx
x^=UTx,其对应的逆运算为:
x
=
U
x
^
x=U\hat{x}
x=Ux^。因此,信号与滤波器
g
g
g之间的图卷积操作可以定义为:
这里
G
^
=
d
i
a
g
(
g
^
1
,
.
.
.
,
g
^
n
)
\hat{G}=diag(\hat{g}_1,...,\hat{g}_n)
G^=diag(g^1,...,g^n)为光谱滤波系数的对角阵。由于
G
^
\hat{G}
G^的确定与拉普拉斯矩阵的特征值有关,因此,我们可以认为
G
^
\hat{G}
G^是特征值的函数,即:
G
^
=
G
^
(
Λ
)
\hat{G}=\hat{G}(\Lambda)
G^=G^(Λ)。
一般地,图的卷积可以用拉普拉斯算子的
k
k
k阶多项式来近似:
在这种情况下,滤波器系数对应于拉普拉斯特征值的多项式,即:
G
^
=
∑
θ
i
Λ
i
o
r
g
^
(
λ
j
)
=
∑
θ
i
λ
j
i
\hat{G}=\sum \theta_{i}\Lambda^{i} \ \ \ \ or \ \ \ \ \hat{g}(\lambda_j)=\sum \theta_i \lambda_{j}^{i}
G^=∑θiΛi or g^(λj)=∑θiλji
在Kipf提出的GCN中,采用系数
θ
0
=
2
θ
\theta_0=2\theta
θ0=2θ和
θ
1
=
−
θ
\theta_1=-\theta
θ1=−θ的对
k
k
k阶多项式进行逼近(
k
=
1
k=1
k=1),由此我们得到基本的GCN卷积运算操作:
GCN中用
D
~
−
1
2
A
~
D
~
−
1
2
\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}
D~−21A~D~−21来代替上式中的
I
+
D
−
1
2
A
D
−
1
2
I+D^{-\frac{1}{2}}AD^{-\frac{1}{2}}
I+D−21AD−21,其中
A
~
=
A
+
I
\tilde{A}=A+I
A~=A+I,
D
~
=
D
+
I
\tilde{D}=D+I
D~=D+I。
最后,通过将卷积推广到
d
d
d维通道输入中的多个滤波器上,并在每一层之间用非线性激活函数进行分层,就得到了如下所定义的GCN传播规则:
2.2 SGC与低通滤波器
GCN中导出的一阶切比雪夫滤波器对应于传播矩阵:
S
1
−
o
r
d
e
r
=
I
+
D
−
1
2
A
D
−
1
2
S_{1-order}=I+D^{-\frac{1}{2}}AD^{-\frac{1}{2}}
S1−order=I+D−21AD−21
又由于对称归一化的拉普拉斯矩阵为:
Δ
s
y
m
=
I
−
D
−
1
2
A
D
−
1
2
\Delta_{sym}=I-D^{-\frac{1}{2}}A D^{-\frac{1}{2}}
Δsym=I−D−21AD−21
所以:
S
1
−
o
r
d
e
r
=
2
I
−
Δ
s
y
m
S_{1-order}=2I-\Delta_{sym}
S1−order=2I−Δsym
因此,传播矩阵的
K
K
K次方
S
1
−
o
r
d
e
r
K
S_{1-order}^K
S1−orderK意味着滤波系数
g
^
i
=
g
^
(
λ
i
)
=
(
2
−
λ
i
)
K
\hat{g}_i=\hat{g}(\lambda_i)=(2-\lambda_i)^K
g^i=g^(λi)=(2−λi)K,其中
λ
i
\lambda_i
λi表示
Δ
s
y
m
\Delta_{sym}
Δsym的特征值。
下图说明了不同数量的传播步长(
K
K
K)下与
S
1
−
o
r
d
e
r
S_{1-order}
S1−order相关的滤波操作:
可以观察到,
S
1
−
o
r
d
e
r
S_{1-order}
S1−order的高幂会导致滤波器系数爆炸,并在
λ
i
<
1
\lambda_i<1
λi<1频率处产生不理想的过放大信号。
为了解决一阶切比雪夫滤波器的潜在数值问题,Kipf和Welling(2017)在GCN中引入了renormalization trick:所有节点加入自环后,用归一化邻接矩阵替换
S
1
−
o
r
d
e
r
S_{1-order}
S1−order,归一化邻接矩阵表示如下:
S
~
a
d
j
=
D
~
−
1
2
A
~
D
~
−
1
2
\tilde{S}_{adj}=\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}
S~adj=D~−21A~D~−21
我们称 S ~ a d j \tilde{S}_{adj} S~adj为增强归一化邻接矩阵,其中 A ~ = A + I \tilde{A}=A+I A~=A+I, D ~ = D + I \tilde{D}=D+I D~=D+I。
相应地,我们有增强对称归一化拉普拉斯矩阵:
Δ
~
s
y
m
=
I
−
D
~
−
1
2
A
~
D
~
−
1
2
\tilde{\Delta}_{sym}=I-\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}
Δ~sym=I−D~−21A~D~−21
因此,我们可以用与
S
~
a
d
j
\tilde{S}_{adj}
S~adj相关联的光谱滤波器作为底层拉普拉斯特征值的多项式,即
g
^
(
λ
~
i
)
=
(
1
−
λ
~
i
)
K
\hat{g}(\tilde{\lambda}_i)=(1-\tilde{\lambda}_i)^K
g^(λ~i)=(1−λ~i)K,其中
λ
~
i
\tilde{\lambda}_i
λ~i是
Δ
~
s
y
m
\tilde{\Delta}_{sym}
Δ~sym的特征值。
下面分析 Δ ~ s y m \tilde{\Delta}_{sym} Δ~sym的频谱,并证明添加自环到图会收缩相应的归一化拉普拉斯算子的谱(特征值)。
定理1:令
A
A
A是一个无向加权且没有孤立节点的简单图
G
G
G的邻接矩阵,相应的度矩阵为
D
D
D。让
A
~
=
A
+
γ
I
\tilde{A}=A+\gamma I
A~=A+γI,这里
γ
>
0
\gamma > 0
γ>0,设
λ
1
\lambda_1
λ1和
λ
n
\lambda_n
λn分别表示对称归一化拉普拉斯矩阵
Δ
s
y
m
=
I
−
D
−
1
2
A
D
−
1
2
\Delta_{sym}=I-D^{-\frac{1}{2}}A D^{-\frac{1}{2}}
Δsym=I−D−21AD−21的最小和最大特征值,
λ
~
1
\tilde{\lambda}_1
λ~1和
λ
~
n
\tilde{\lambda}_n
λ~n是
Δ
~
s
y
m
=
I
−
D
~
−
1
2
A
~
D
~
−
1
2
\tilde{\Delta}_{sym}=I-\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}
Δ~sym=I−D~−21A~D~−21的最小和最大特征值。我们有:
0
=
λ
1
=
λ
~
1
<
λ
~
n
<
λ
n
0=\lambda_1=\tilde{\lambda}_1<\tilde{\lambda}_n<\lambda_n
0=λ1=λ~1<λ~n<λn
定理1的证明见附录。定理1表明:当
γ
>
0
\gamma>0
γ>0时,相当于给图添加了自环,此时对称归一化拉普拉斯矩阵的最大特征值会变小。
3. 实验
论文中首先在引文网络和社交网络上评估SGC,然后扩展到广泛的下游任务。
3.1 引文/社交网络
数据集:
引文网络实验结果:
社交网络实验结果:
根据表2和表3的结果,作者认为SGC具有很强的竞争力。由表2可知,SGC在引文网络上的性能可以与GCN等最先进的GNN相媲美。特别是在Citeseer上,SGC比GCN大约好1%,作者认为这种性能提升是因为SGC的参数更少,因此更少受到过拟合的影响。值得注意的是,由于过拟合,GIN的性能略有下降。此外,LNet和AdaLNet在引文网络上表现都不稳定。由表3可知,在Reddit数据集上,SGC在SAGE-GCN和FastGCN的基础上都提升了1%的性能。
图3中给出了Pubmed和Reddit数据集上SGC与其他模型训练时间的对比:
在大型图(例如Reddit)上,由于内存需求过大,GCN无法被训练。通过抽样来减少邻域大小可以解决这个问题,如GraphSAGE。实验结果表明,SGC的训练速度比基于快速采样的方法快两个数量级,而性能几乎没有下降。
3.2 下游任务
本节将实验扩展到了5个下游应用:文本分类、半监督用户地理定位、关系提取、零镜头图像分类和图分类,通过这些任务来研究SGC的适用性。
文本分类:
半监督用户地理定位:
关系提取:
零镜头图像分类:
图分类:将DCGCN中的GCN替换为SGC,并在NCI1和COLLAB数据集上分别获得71.0%和76.2%的性能,这与GCN对等,但远远落后于GIN。同样,在QM8量子化学数据集上,更先进的AdaLNet和LNet获得了0.01的MAE,大大超过了SGC的0.03的MAE。以上结果表明SGC在图分类上的效果一般。
4. 总结
为了更好地理解和解释GCN的机制,本文提出了一种最简单的图卷积模型SGC。SGC去除了GCN中的非线性特征提取部分,将整个模型训练过程简化为对预处理特征 X ˉ = S K X \bar{X}=S^{K}X Xˉ=SKX的直接多类逻辑回归。SGC在许多任务中与目前最先进的GNN模型表现相当,即使不如某些GNN模型,但也大大提升了训练速度。
此外,本文从卷积的角度分析了SGC,并证明了SGC是一个低通类型的频谱域滤波器。低通型滤波器捕捉低频信号,在这种设置中,它对应于图的特征平滑。最终,SGC的强大性能揭示了GCN的表达能力很可能主要来源于重复的图传播,也就是不断地对邻居节点特征进行聚合(SGC保留),而不是非线性的特征提取(SGC不保留)。
考虑到SGC的实验性能、效率和可解释性,作者认为SGC可以作为与未来图学习模型进行比较的简单baseline;此外,SGC也可以作为未来图学习研究的起点,从简单模型开始发展复杂模型。