Variational graph auto-encoders (VGAE)

连理o

已于 2022-07-12 17:10:11 修改

阅读量1.7k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：图模型文章标签：机器学习人工智能深度学习

于 2022-06-27 10:06:08 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_42437114/article/details/125469932

图模型专栏收录该内容

4 篇文章

订阅专栏

本文介绍了变分图自编码器(VGAE)，它是基于图结构数据的无监督学习框架，结合了GAE的编码器（GCN）和VAE的正则化思想。VGAE假设节点特征服从正态分布，并通过GCN估计后验分布，利用KL散度优化嵌入空间。理解了VGAE的损失函数后，我们发现其在稀疏图上的应用策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Variational graph auto-encoders (VGAE)
- Graph Auto-Encoders (GAE)
- Variational graph auto-encoders (VGAE)
References

Variational graph auto-encoders (VGAE)

Graph Auto-Encoders (GAE)

Definitions

给定一个无向无权图 $\mathcal G=(\mathcal V,\mathcal E)$ ， $N=|\mathcal V|$ 为顶点数， $\boldsymbol A\in\R^{N\times N}$ 为邻接矩阵 (对角线元素为 1)， $\boldsymbol X\in\R^{N\times D}$ 为结点的特征向量

Graph Auto-Encoders

在这里插入图片描述

GAE 中的 Encoder 为 GCN，它负责由邻接矩阵和结点特征编码得到每个结点的 embedding 向量 $z_i$ ( $i = 1, . . ., N$ )，它们构成了结点 embedding 矩阵 $\boldsymbol Z\in\R^{N\times F}$
GAE 中的 Decoder 为一个简单的 inner product decoder，它负责由结点的 embedding 向量 $\boldsymbol Z$ 来重构归一化的邻接矩阵 $\hat \boldsymbol A$ 。它通过计算 $\sigma(z_i^Tz_j)$ 来决定 $\hat \boldsymbol A_{ij}$

A framework for unsupervised learning on graph-structured data

GAE 引入自编码器来处理图数据，可以基于图数据进行无监督学习

Variational graph auto-encoders (VGAE)

VGAE 在 GAE 的基础上进一步引入了 变分自编码器 (VAE) 的思想，对 latent space 施加正则化来保证一个 regular latent space

VGAE

VGAE 假设先验概率服从标准正态分布
$p(\boldsymbol Z)=\prod_{i=1}^N p(z_i)=\prod_{i=1}^N \mathcal N(z_i|0,\boldsymbol I)$ 但论文中也提到，“A Gaussian prior is potentially a poor choice in combination with an inner product decoder, as the latter tries to push embeddings away from the zero-center (see Figure 1).”
似然由点积模型得到
后验概率由变分推理近似得到，概率分布族为协方差矩阵为对角矩阵的正态分布
其中， $\mu=\text{GCN}_\mu(\boldsymbol X,\boldsymbol A)$ 为 GCN 输出的后验概率分布均值向量， $\log\sigma=\text{GCN}_\sigma(\boldsymbol X,\boldsymbol A)$ 为 GCN 输出的后验概率分布标准差的对数。 $\text{GCN}$ 为一个简单的 2 层 GCN，可以被表示为 $\text{GCN}(\boldsymbol X,\boldsymbol A)=\tilde \boldsymbol A\text{RELU}(\tilde \boldsymbol A\boldsymbol X\boldsymbol W_0)\boldsymbol W_1$ ，其中 $\boldsymbol W_i$ 为 MLP 权重矩阵， $\tilde \boldsymbol A=\boldsymbol D^{-\frac{1}{2}}\boldsymbol A\boldsymbol D^{-\frac{1}{2}}$ 为归一化的邻接矩阵， $\boldsymbol D$ 为度矩阵 (一个对角矩阵，对角元素为各个顶点的度数)，左乘 $\boldsymbol D^{-\frac{1}{2}}$ 会使得 $\boldsymbol A$ 的第 $i$ 行除以结点 $i$ 度数的根号，右乘 $\boldsymbol D^{-\frac{1}{2}}$ 会使得 $\boldsymbol A$ 的第 $i$ 列除以结点 $i$ 度数的根号，因此 $\tilde\boldsymbol A_{ij}=\boldsymbol A_{ij}/(\sqrt{\boldsymbol D_{ii}\boldsymbol D_{jj}})$ ，相当于是给邻接矩阵根据度数做了一个归一化。 $\tilde \boldsymbol A\boldsymbol X=\begin{bmatrix} \tilde a_1^T\boldsymbol X\\...\\\tilde a_N^T\boldsymbol X\end{bmatrix}$ 是在进行结点的信息聚合。 $\text{GCN}_\mu(\boldsymbol X,\boldsymbol A)$ 和 $\text{GCN}_\sigma(\boldsymbol X,\boldsymbol A)$ 共享第一层的权重 $\boldsymbol W_0$
由变分推理得到的优化问题为最大化下式：

VGAE 的损失函数

在 $\mathcal L$ 中，期望似然可以通过蒙特卡洛法采样来近似得到
$\sum_{i=1}^N\sum_{j=1}^N\left[\delta_{\boldsymbol A_{i,j}=1}\log\sigma(z_i^Tz_j)+\delta_{\boldsymbol A_{i,j}=0}\log\left[1-\sigma(z_i^Tz_j)\right]\right]$
正则项为
$\begin{aligned} \text{KL}[q(\boldsymbol Z|\boldsymbol X,\boldsymbol A)||p(\boldsymbol Z)] &=\mathbb E_{q(\boldsymbol Z|\boldsymbol X,\boldsymbol A)}[\log q(\boldsymbol Z|\boldsymbol X,\boldsymbol A)-\log p(\boldsymbol Z)] \\&=\sum_{i=1}^N\mathbb E_{q(\boldsymbol Z|\boldsymbol X,\boldsymbol A)}\left[\log q(z_i|\boldsymbol X,\boldsymbol A)-\log p(z_i)\right] \\&=\sum_{i=1}^N\mathbb E_{q(z_i|\boldsymbol X,\boldsymbol A)}\left[\log q(z_i|\boldsymbol X,\boldsymbol A)-\log p(z_i)\right] \\&=\sum_{i=1}^N \text{KL}[q(z_i|\boldsymbol X,\boldsymbol A)||p(z_i)] \\&=\sum_{i=1}^N \text{KL}[\mathcal N(z_i|\mu_i,\text{diag}(\sigma_i^2))||\mathcal N(z_i|0,\boldsymbol I)] \end{aligned}$
两个多维高斯分布之间的 KL 散度：设
$p(x)=\frac{1}{(2 \pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}} \exp \left(-\frac{1}{2}(x-\mu)^{\top} \Sigma^{-1}(x-\mu)\right)\\ q(x)=\frac{1}{(2 \pi)^{\frac{n}{2}}|L|^{\frac{1}{2}}} \exp \left(-\frac{1}{2}(x-m)^{\top} L^{-1}(x-m)\right)$ 下面推导它们之间的 KL 散度：
$\| q)=\mathbb E_{p}\left[\log \frac{p(x)}{q(x)}\right]$ $\begin{aligned} \frac{p(x)}{q(x)} &=\frac{\frac{1}{(2 \pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}} \exp \left(-\frac{1}{2}(x-\mu)^{\top} \Sigma^{-1}(x-\mu)\right)}{\frac{1}{(2 \pi)^{\frac{n}{2}}|L|^{\frac{1}{2}}} \exp \left(-\frac{1}{2}(x-m)^{\top} L^{-1}(x-m)\right)} \\ &=\left(\frac{|L|}{|\Sigma|}\right)^{\frac{1}{2}} \exp \left(\frac{1}{2}(x-m)^{\top} L^{-1}(x-m)-\frac{1}{2}(x-\mu)^{\top} \Sigma^{-1}(x-\mu)\right) \end{aligned}$ $\begin{aligned} \log \frac{p(x)}{q(x)}=\frac{1}{2} \log \frac{|L|}{|\Sigma|}+\frac{1}{2}(x-m)^{\top} L^{-1}(x-m)-\frac{1}{2}(x-\mu)^{\top} \Sigma^{-1}(x-\mu) \end{aligned}$ $\begin{aligned} \mathbb E_{p}\left[\log \frac{p(x)}{q(x)}\right]&=\frac{1}{2} \log \frac{|L|}{|\Sigma|}+\frac{1}{2}\mathbb E_{p}\left[(x-m)^{\top} L^{-1}(x-m)-(x-\mu)^{\top} \Sigma^{-1}(x-\mu)\right] \\&=\frac{1}{2} \log \frac{|L|}{|\Sigma|}+\frac{1}{2}\mathbb E_{p}\left[tr((x-m)^{\top} L^{-1}(x-m))\right]-\frac{1}{2}\mathbb E_{p}\left[tr((x-\mu)^{\top} \Sigma^{-1}(x-\mu))\right] \\&=\frac{1}{2} \log \frac{|L|}{|\Sigma|}+\frac{1}{2}\mathbb E_{p}\left[tr(L^{-1}(x-m) (x-m)^{\top})\right]-\frac{1}{2}\mathbb E_{p}\left[tr(\Sigma^{-1}(x-\mu) (x-\mu)^{\top})\right] \\&\ \ \ \ (tr(AB)=tr(BA)) \\&=\frac{1}{2} \log \frac{|L|}{|\Sigma|}+\frac{1}{2}tr\left[\mathbb E_{p}(L^{-1}(x-m) (x-m)^{\top})\right]-\frac{1}{2}tr\left[\mathbb E_{p}(\Sigma^{-1}(x-\mu) (x-\mu)^{\top})\right] \\&\ \ \ \ (tr[\mathbb E_{x}(f(x))]=\mathbb E_{x}[tr(f(x))]) \\&=\frac{1}{2} \log \frac{|L|}{|\Sigma|}+\frac{1}{2}tr\left[L^{-1}\mathbb E_{p}(xx^{\top}-mx^{\top}-xm^{\top}+mm^{\top})\right]-\frac{1}{2}tr\left[\Sigma^{-1}\mathbb E_{p}((x-\mu) (x-\mu)^{\top})\right] \\&=\frac{1}{2} \log \frac{|L|}{|\Sigma|}+\frac{1}{2}tr\left[L^{-1}\mathbb E_{p}(xx^{\top}-mx^{\top}-xm^{\top}+mm^{\top})\right]-\frac{1}{2}tr\left[\Sigma^{-1}\Sigma\right] \\&=\frac{1}{2} \log \frac{|L|}{|\Sigma|}+\frac{1}{2}tr\left[L^{-1}\mathbb E_{p}(\Sigma+\mu\mu^\top-mx^{\top}-xm^{\top}+mm^{\top})\right]-\frac{n}{2} \\&\ \ \ \ (\mathbb E_{p}(xx^{\top})=\Sigma+\mu\mu^\top;\ 证明:\Sigma=\mathbb E_{p}[(x-\mu)(x-\mu)^\top]) \\&=\frac{1}{2} \log \frac{|L|}{|\Sigma|}+\frac{1}{2}tr\left[L^{-1}(\Sigma+\mu\mu^\top-m\mu^{\top}-\mu m^{\top}+mm^{\top})\right]-\frac{n}{2} \\&=\frac{1}{2}\left\{ \log \frac{|L|}{|\Sigma|}-n+tr(L^{-1}\Sigma)+tr\left[L^{-1}(\mu\mu^\top-m\mu^{\top}-\mu m^{\top}+mm^{\top})\right]\right\} \\&=\frac{1}{2}\left\{ \log \frac{|L|}{|\Sigma|}-n+tr(L^{-1}\Sigma)+tr\left[\mu^\top L^{-1}\mu-m^{\top} L^{-1}\mu-\mu^{\top}L^{-1} m+m^{\top}L^{-1} m\right]\right\} \\&=\frac{1}{2}\left\{ \log \frac{|L|}{|\Sigma|}-n+tr(L^{-1}\Sigma)+(\mu^\top L^{-1}\mu-m^{\top} L^{-1}\mu-\mu^{\top}L^{-1} m+m^{\top}L^{-1} m)\right\} \\&=\frac{1}{2}\left\{ \log \frac{|L|}{|\Sigma|}-n+tr(L^{-1}\Sigma)+(\mu-m)^\top L^{-1}(\mu-m)\right\} \end{aligned}$
将上述结论代入正则项可得
$\begin{aligned} \text{KL}[q(\boldsymbol Z|\boldsymbol X,\boldsymbol A)||p(\boldsymbol Z)] &=\sum_{i=1}^N \text{KL}[\mathcal N(z_i|\mu_i,\text{diag}(\sigma_i^2))||\mathcal N(z_i|0,\boldsymbol I)] \\&=\sum_{i=1}^N \frac{1}{2}\left(-\sum_{j=1}^F\log\sigma_i^2 -F+\sum_{j=1}^F\sigma_{ij}^2+\mu_i^\top\mu_i\right) \\&\ \ \ \ (n=F,\ \ \mu=\mu_i,\ \ \Sigma=\text{diag}(\sigma_i^2),\ \ m=0,\ \ L=\boldsymbol I) \end{aligned}$
综上所述，VGAE 的损失函数为
$L=-\sum_{i=1}^N\sum_{j=1}^N\left[\delta_{\boldsymbol A_{i,j}=1}\log\sigma(z_i^Tz_j)+\delta_{\boldsymbol A_{i,j}=0}\log\left[1-\sigma(z_i^Tz_j)\right]\right]+\sum_{i=1}^N \frac{1}{2}\left(-\sum_{j=1}^F\log\sigma_i^2 -F+\sum_{j=1}^F\sigma_{ij}^2+\mu_i^\top\mu_i\right)$ (当 $\boldsymbol A$ 非常稀疏的时候，VGAE 对 $\boldsymbol A_{i,j}=1$ 的项进行了重加权)