GANs学习（GAN、wGAN）

最新推荐文章于 2024-05-06 15:35:13 发布

hy_jz

最新推荐文章于 2024-05-06 15:35:13 发布

阅读量783

点赞数

CC 4.0 BY-SA版权

分类专栏：神经网络文章标签： GAN wGAN 对抗学习

本文链接：https://blog.youkuaiyun.com/hy_jz/article/details/78752657

神经网络专栏收录该内容

1 篇文章

订阅专栏

本文介绍了GANs的基本原理，包括原始GAN的训练过程和全局最优解，以及Wasserstein GAN的改进点，如去掉sigmoid、限制判别器参数等，探讨了Wasserstein距离在分布比较中的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

GANs学习（GAN、wGAN）

原始GAN

GANs (Generative Adversarial Networks) [1]是2014年 Goodfellow 提出的，一种zero-sum博弈过程：生成器[generator] 和判别器[discriminator]之间的此消彼长

GAN网络框架

D和G play a two-player minimax game:

m i n G m a x D V (D, G) = E x \sim p d a t a (x) [l o g D (x)] + E z \sim p z (z) [l o g (1 - D (G (z)))]

$\begin{equation} min_{G}max_{D}V(D,G)= E_{x \thicksim p_{data}(x)}[ log D( \textbf x) ]+ E_{z \thicksim p_z(z)} [log (1-D(G(\textbf{z})))] \end{equation}$
上式可以看出，判别器尽可能将来自真实数据的样本判别为1，将来自生成器的样本判别为0，即：尽可能的从生成数据中区分出真实的数据；生成器，最小化

log(1−D(G(z)) $log (1-D(G(\textbf{z}))$ ，也就是说最小化生成数据和真实数据的样本，也可以理解为最大化

log(D(G(z)) $log (D(G(\textbf{z}))$ ，最大化判别器犯错误的概率。生成器相当于对输入noise进行非线性变换（Noise或者先验一般是均匀分布或正太分布）

训练时，交替更新Discriminator 和 Generator。论文中的伪代码：
这里写图片描述

生成器函数采用最小化 $log (1-D(G(\textbf{z}))$ ，当判别器训练好的时候，生成器函数梯度几乎为0；因而，原文中作者提出使用最大化 $log (D(G(\textbf{z}))$ 。

Global Optimality $p_{data} = p_g$

G fixed, optimal discriminator D :
$V (G, D) = \int x p d a t a (x) l o g (D (x)) d x + \int z p z (z) l o g (1 - D (G (z))) d z = \int x p d a t a (x) l o g (D (x)) + p g (x) l o g (1 - D (x)) d x$ $\begin{equation} V(G,D) = \int_x p_data(x)log(D(x))dx + \int_z p_z(z) log(1-D(G(z)))dz \\ =\int_x p_data(x)log(D(x)) + p_g(x) log(1-D(x)) dx \end{equation}$
两边求导，可得最优的Discriminator D is:
$D_G^*(x)= \frac{p_{data}(x)}{p_{data}(x) + p_g(x)}$
Thus
$C (G) = E x \sim p d a t a (x) l o g (p d a t a ( x ) p d a t a ( x ) + p g ( x )) + E x \sim p g (x) l o g (p g ( x ) p d a t a ( x ) + p g ( x ))$ $\begin{equation} C(G)= E_{x \thicksim p_{data} (x) }log(\frac{p_{data}(x)}{p_{data}(x) + p_g(x)}) + E_{x \thicksim p_g(x)}log(\frac{p_{g}(x)}{p_{data}(x) + p_g(x)}) \end{equation}$
D fixed, optimal generator G:
Theorem 1. The global minimum of the virtual training criterion C(G) is achieved if and only if $p_g = p_{data}$ . At that point, C(G) achieves the value −log 4。
证明：
已知 $p_g = p_{data}$ ，那么 $D_G^* = \frac{1}{2}$ 。 C(G) = $log \frac{1}{2} + log \frac{1}{2} = -log4$ 。C(G)=V( $D_G^*$ ,D)减去它得到：

$C (G) = - l o g (4) + K L (p d a t a | | p d a t a + p g 2) + K L (p g | | p d a t a + p g 2) = - l o g (4) + 2 \times J S D (p d a t a | | p g)$ $\begin{equation} C(G) = -log(4) + KL(p_{data}|| \frac{p_{data}+p_g}{2}) + KL(p_g||\frac{p_{data}+p_g}{2}) \\ = -log(4) + 2 \times JSD(p_{data}||p_g) \end{equation}$
两个分布之间的Jensen–Shannon 距离总是非负的，且当 $p_{data}=p_g$ 时JSD为0。因而C(G)的全局最小值为 $C^* = -log(4)$ 。

wGAN

原始GAN存在着训练困难、生成样本缺乏多样性、生成器和判别器loss函数无法指示训练过程等问题，Wasserstein GAN通过简单的改变，实现了巨大的突破。主要改变有以下几点：
1. 判别器最后一层去掉sigmoid（这是由Wasserstein 距离决定的）；
2. 生成器和判别器的loss不取log
3. 每次更新判别器的参数之后，把他们的绝对值限制到不超过一个常数c
4. 不要用基于动量的优化算法（Adam etc.），推荐RMSProp, 简单的SGD也可以
论文中的伪代码：
这里写图片描述

Wasserstein距离又叫 Earth-Mover（EM）距离，“推土机”距离。

W (P r, P g) = inf γ \sim \prod (P r, P g) E (x, y) \sim γ [| | x - y | |]

$\begin{equation} W(P_r,P_g) = \inf_{\gamma \thicksim \prod(P_r,P_g)} E_{(x,y) \thicksim \gamma} [||x-y||] \end{equation}$

直观上可以理解为：在 $\gamma$ “路径规划下”，把 $P_r$ 这堆”沙土”挪到 $P_g$ “位置”所需要的“消耗”。而 $W(P_r,P_g)$ 表示 “最优路径规划”下的“最小消耗”。参考https://zhuanlan.zhihu.com/p/25071913

Wasserstein距离相比KL散度、JS散度的优势在于，即使两个分布没有重叠，Wasserstein距离任然能够反应他们的远近。

[1] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]//Advances in neural information processing systems. 2014: 2672-2680.
[2]Arjovsky M, Chintala S, Bottou L. Wasserstein generative adversarial networks[C]//International Conference on Machine Learning. 2017: 214-223.