理解WGAN 和 Spectral Normalization(归一化)

原创

已于 2022-03-09 12:15:36 修改 · 1.2k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习

于 2022-03-09 12:12:32 首次发布

本文深入探讨了传统GAN在训练过程中遇到的梯度消失问题，原因是JS散度在分布无交集时失效。为解决这一问题，Wasserstein GAN（WGAN）引入Wasserstein距离作为衡量分布差异的指标，它能有效处理分布无交集的情况。WGAN通过确保判别器满足Lipschitz连续性条件，避免了梯度消失，其中谱归一化是一种有效的实现方法。文章还介绍了SVD分解和瑞利商在计算谱范数中的应用，以及如何通过谱范数保持参数矩阵的Lipschitz连续性。

传统的Gan存在的问题

传统的判别器损失

$\hspace{2em}\mathop{max}\limits_{D}\space V(D,G) = \mathbb{E}_{x\sim P_{r}(x)}[log\space D(x)] + \mathbb{E}_{z \sim P_g \space (x)}[log(1-D(x))] \hspace{4em}(1)$

设判别器的输入数据 $x$ 来源于真实数据分布的概率为 $P_r(x)$ ，来源于生成数据分布的概率为 $P_g(x)$

则判别器损失可以表示为:
$\hspace{4em}D_{Loss} = -[P_r(x)\space logD(x)+P_g(x)\space log(1-D(x))]\hspace{7em}(2)$
令 $D (x)$ 导数为0，化简可得:
$\hspace{11em}D(x) = \frac{P_r(x)}{P_r(x)+P_g(x)}\hspace{11em}(3)$
当输入数据来自真实分布的概率 $P_r(x)$ 与来自生成数据分布的概率 $P_g(x)$ 相同时，即 $P_r(x)=P_g(x)$

时，生成器生成的图片效果最好，真假难辨。将 (3) 式代入 (1) 式得:
$\mathbb{E}_{x\sim P_r(x)}\space log\frac{P_r(x)}{\frac{1}{2}[P_r(x)+P_g(x)]}\space + \mathbb{E}_{x\sim P_g(x)}\space log\frac{P_g(x)}{\frac{1}{2}[P_r(x)+P_g(x)]}\space - 2log2 \hspace{2em}(4)$
由 $J S$ 散度和 $K L$ 散度的公式:
$\hspace{8em}D_{KL}(P_1||P_2) =\sum P_1\space log\frac{P_1}{P_2}= \mathbb{E}_{x\sim P_1}\space log\frac{P_1}{P_2}\hspace{5em}(5)\\ \hspace{5em} D_{JS} = \frac{1}{2}D_{KL}(P_1||\frac{P_1+P_2}{2})\space +\frac{1}{2}D_{KL}(P_2||\frac{P_1+P_2}{2})\hspace{5em}(6)$