GAN

最新推荐文章于 2020-04-09 18:47:32 发布

Forlogen

最新推荐文章于 2020-04-09 18:47:32 发布

阅读量465

点赞数

CC 4.0 BY-SA版权

分类专栏： GAN 李宏毅系列课程

本文链接：https://blog.youkuaiyun.com/Forlogen/article/details/88912622

GAN 同时被 2 个专栏收录

46 篇文章

订阅专栏

李宏毅系列课程

10 篇文章

订阅专栏

本文详细介绍了生成对抗网络（GAN）的工作原理及其实现过程。通过对比Auto-encoder和VAE，阐述了GAN中生成器（G）与判别器（D）相互博弈的机制，并通过数学推导解释了GAN如何优化生成数据质量。

首先给出有关GAN的相关东西：
paper：NIPS 2016 Tutorial: Generative Adversarial Networks
Author: Ian Goodfellow
Paper Download: https://arxiv.org/abs/1701.00160
Video: https://channel9.msdn.com/Events/Neural-Information-Processing-Systems-Conference/Neural-Information-Processing-Systems-Conference-NIPS-2016/Generative-Adversarial-Networks

前述

生成模型在机器学习甚至深度学习中都是一个主要的内容，比如我们的数据是大量的唐诗的文本，经过学习我们希望得到一个很好的生成模型，可以自己写一些诗；或者我们的数据是关于二次元人物头像，希望学习得到的生成模型可以自己画出一些类似的图像。

关于这方面的模型有很多，比如Auto-encoder：在训练阶段，将图像数据输入到一个NN（neural network） Encoder中，得到code，然后再将其输入到NN Decoder中就可以生成一个新的图像，我们希望经过不断地训练，由Auto-encoder生成的图像尽可能的接近真实数据。训练结束后，输入一些随机产生的code 的向量到NN Decoder中，就可以产生一些图像数据。

比如在MNIST上进行实验，将手写图像的输入到NNEncoder中就可以得到一个2D的code，然后将其输入到NN Decoder中就可以得到和真实数据很近似的新图像数据。比如将 $[- 1.5, 0]$ 传入NN Decoder中得到手写数字0的图像，将 $[1.5, 0]$ 传入NN Decoder中得到手写数字1的图像

经过多次实验就可以得到如下的结果图，当我们输入不同的2D向量时，就可以得到不同的关于手写数字的新图像

另一种方式是VAE，基本的流程如下，它和Auto-Encoder一样都有一个NN Ecoder和一个NN Dcoder，不同的是输入到NN Decode中的内容。将数据输入到NN Ecoder中会产生code ${m_{1},m_{2},m_{3}\}$ 和 $\{\sigma_{1},\sigma_{2},\sigma_{3},\}$ ，然后再随机的生成噪声数据 ${e_{1},e_{2},e_{3}\}$ ，然后做如图所示的运算生成 ${c_{1},c_{2},c_{3}\}$ ，输入到NN Decoder中便得到一个输出。这里同样是希望output和input越接近越好，所以去最小化两者之间的误差。但是这样做会使得 $\{\sigma_{1},\sigma_{2},\sigma_{3}\}$ 的值都为0，所以需要对 $\sigma_{i},i=1,2,3$ ，做如下的限制 $\sum_{i=1}^3(exp(\sigma_{i})-(1+\sigma_{i})+(m_{i})^2)$

但是VAE存在一个问题那就是，经过NN Decoder生成的图像，可能不同的数据之间仅有一个像素不同，对于它来说都认为是一样接近真实的数据。但是不同的输出图像对于人来说，效果是不一样的，也可以说它无法真正的生成对真实图像的模拟。

P.S. 对于Auto-encoder和VAE之前并没有学习过，有兴趣的同学可以补一下课～～

下面开始学习GAN的相关内容，为了方便表述，生成器Generator一律用G表示，判别器Discriminator一律用D表示。在GAN中，G类似于VAE中的Decoder，随机的生成一些噪声样本输入到G中生成一些图像，标记为０，真实的图像标记为１，一起作为输入传到D中，D会判断出哪些是真实的，哪些是G生成的。

通常G和D都是神经网络，当D固定时，使用梯度下降法更新G的参数，通过不断的迭代，两者相互对抗，使得G生成的图像越来越接近真实图像，D无法判别输入的图像是真是假。

GAN

下面我们从公式推导的过程来看一下GAN的原理，用 $p_{data}(x)$ 来表是真实数据的分布，使用 $p_{G}(x;\theta)$ 来表示随机噪声数据的分布，它受参数 $\theta$ （ $\theta$ 这里是一组参数，而不只是一个）限制。这里 $p_{G}(x;\theta)$ 可以是任何的分布类型，对应的 $\theta$ 就表示不同的含义，比如当 $p_{G}(x;\theta)$ 表示高斯分布时， $\theta$ 就表示高斯分布的均值和方差，如下图所示，均值就是黄色点，方便就表示蓝色圆圈的范围。我们希望 $p_{G}(x;\theta)$ 尽可能的接近 $p_{data}(x)$ ，这样生成的图像就越接近真实图像。

为了计算 $p_{G}(x;\theta)$ 中的 $\theta$ ，我们从 $p_{data}(x)$ 中随机抽样 ${x^1,x^2,…,x^m\}$ ，然后建立似然函数L，通过最大化似然函数来求得最佳的 $\theta$ ，这里用 $\theta^{*}$ 表示。

使用极大似然函数求解 $\theta^{*}$ 的过程如下所示，最好的结果可以看作是通过最小化KL散度（用来衡量两个分布的相似性）来求得解。那么这里就有一个问题，如果像其他算法一样假设噪声数据是一个高斯分布，在这里最后的效果往往很差，那么我们如何得到一个通用性高的 $p_{G}(x;\theta)$ ，同时又有很好的效果呢？

在GAN中G通常都是一个神经网络模型，它接收一个可能是任何分布的随机噪声数据 $z$ ，输入一个 $\ distribution$ ，它和之前的分布就会有很大的差别，建立损失函数表示它和真是数据分布的差距，通过最小化损失函数，得到一个不错的G。具体的过程我们可以用下面这个公式表达 $p_{G}(x)=\int_{z}p_{prior}(z)I_{[G(z)=x]}dz$
其中，因为假设此时分布的选定的，所以 $p_{G}(X)$ 中没有参数 $\theta$ ； $p_{prior}(z)$ 表示不同的 $z$ 出现的概率； $G (z)$ 表示输入到G中的 $z$ 生成的数据；函数 $I_{[G(z)=x]}$ 表示G生成的数据和真实数据x的差异，如果认为是相同的，则值为1，否则值为0。然后通过积分所有的 $z$ 来建立如上所示的似然函数 $L=\prod_{i=1}^m p_{G}(x^i;\theta)$ 但是它是难以计算的。

而Ian Goodfellow天才般的提出的GAN就解决了这个问题。在GAN中，G是一个函数（function），输入 $z$ 输出 $x$ ，具体来说给G一个 $p_{prior}(z)$ ，最后给出一个可能的分布 $p_{G}(x)$ 。D也可以看做是一个函数，接收 $x$ 输出一个标量，表示判别的结果。建立函数 $V (G, D)$ 来衡量 $p_{G}(x)$ 和 $p_{data}(x)$ 的不同，通过 $arg\min \limits_{G}\max \limits_{D}V(G,D)$ 来得到最优解 $G^{*}$ 。

根据GAN的G和D相互对抗的思想，我们可以将函数 $V (G, D)$ 写成如下的形式 $V=E_{x\sim p_{data}}[logD(x)]+E_{x\sim p_{G}}[log(1-D(x))]$
给定一个G，通过 $\max \limits_{D}V(G,D)$ 来提高D的判别能力，尽可能的找出 $p_{G}$ 和 $p_{data}$ 的不同。如果D给定时，同样要找到一个G，来使得 $p_{G}$ 尽可能的和 $p_{data}$ 相似。

接下来我们通过图像来形象的理解一下 $G^{*}=arg\min \limits_{G}\max \limits_{D}V(G,D)$ ，如下所示，横轴表示D的范围，纵轴表示 $V(G_{i},D)$ 的值，如果G给定时，不同的D则 $V(G_{i},D)$ 就会有不同的结果，那么对于图中所示的三个G，它的最大值就出现在红点的位置。

将前面关于V的表达式进行如下的转换

为了得到 $D^{*}$ ，就要最大化它，等价的就是要最大化积分号中的部分 $p_{data}(x)logD(x)+p_{G}(x)log(1-D(x))$ 做以下的表示规定：

$a$ : $p_{data}(x)$
$b$ : $p_{G}(x)$
$D$ : $D (x)$
则可以将其变成 $f (D) = a l o g (D) + b l o g (1 - D)$ ，求 $f (D)$ 的最大值是很简单的。最后求得 $D^{*}(x)=\frac {p_{data}(x)}{p_{data}(x)+p_{G}(x)}$ 它的取值范围是 $[0, 1]$

那么对于不同的G就会有不同的 $D^{*}(x)$ ，表现在图上就是会有不同的最大值点，而它与横轴之间的距离（图中绿色虚线部分）就表示了 $p_{G_{i}}$ 和 $p_{data}$ 的差距

将 $D^{*}(x)$ 带入 $V$ 的表达式有如下的样子，然后在 $l o g$ 的表达式上下同除以2，就可以得到如下的表达式

而第一个积分号的内容表示了 $p_{data}(x)$ 和 $p_{data}(x)+p_{G}(x))/2$ 的KL散度，同样的第二个积分里的内容表示了 $p_{G}(x)$ 和 $p_{data}(x)+p_{G}(x))/2$ 的KL散度，所以我们可以写成如下的形式 $-2log2+KL(p_{data}(x)|| \frac{p_{data}(x)+p_{G}(x)}{2})+KL(p_{G}(x)|| \frac{p_{data}(x)+p_{G}(x)}{2})$

而这样的形式类似于 $JSD(P||Q)=\frac{1}{2}D(p|M|)+\frac{1}{2}D(Q||M)，M=\frac{1}{2}(P+Q)$
所以可以将其写成Jensen-Shannon散度的形式 $2log2+2JSD(p_{data}(x)||P_{G}(x))$

下面对GAN做一个小总结，那么最后得到的最优的G，自然就是使得 $p_{G}(x)=p_{data}(x)$

通过上面的分析，知道了如何设函数来得到最优的G和D，以及最优的结果应该是什么。那么如何来不断更新G和D，来得到最优的 $G^{*}$ 和 $D^{*}$ 呢？

假设此时D是固定的，将 $\max \limits_{D}V(G,D)$ 记为 $L (G)$ ，为了得到最好的G，就要最小化这个损失函数，这里使用梯度下降法更新参数 $\theta_{G}$

假设这里的D不是无限个，只有三个，那么用 $f (x)$ 表示 $f(x)=max\{D_{1}(x),D_{2}(x),D_{3}(x)\}$ ，它们表现在图中如下所示，当然可能不一定是直线，这里为了方便表述，假设它们都是直线。那么我们如何来求 $f (x)$ 对 $x$ 的微分呢？首先要看 $x$ 落在那个区域中，区域中哪个 $D_{i}(x)$ 最大， $f$ 就等于哪个 $D_{i}(x)$ ，然后进行微分。因为这里是要最小化损失函数，如果开始落在 $D_{1}(x)$ 的区域中，微分后就会告诉你应该往右走，当落到 $D_{2}(x)$ 的区域中，微分后就会告诉你应该继续往右走，就是这样一个过程。

所以我们可以使用如下的方法来找到一个G来最小化 $\max \limits_{D}V(G,D)$ 。初始时给定一个 $G_{0}$ ，然后找一个 $D^{*}_{0}$ 来最大化 $V (G, D)$ ，然后利用梯度下降来更新参数 $\theta_{G}$ 得到一个新的 $G_{1}$ ，接着使用相同的方法不断的更新下去，就会得到 $G^{*}$ 。

在更新过程中可能会有一个小问题，当 $D^{*}_{0}$ 固定时， $G_{1}$ 相比 $G_{0}$ 就会减小 $p_{data}(x)$ 和 $p_{G}(x)$ 之间的KL散度。但是如果下一个 $D^{*}_{1}$ 和 $D^{*}_{0}$ 很接近时，下个更新过程可能就会反而增大了 $p_{data}(x)$ 和 $p_{G}(x)$ 之间的KL散度。为了解决这个问题，参考其他算法使用梯度下降的过程，不要更新G太多次就可以了。

理论上这样是可行的，在实际操作中，我们往往进行如下的操作得到 $\tilde{V}$ 。这个形式和二分类算法中处理交叉熵的过程是不是很相似呢？

那么将从抽样得到的看做是positive examples，将从抽样得到的看做negative examples，前面最大化函数 $V$ 的过程就可以看成等价的最小化 $L$ 。

下面给出GAN算法的描述,，它主要是两个过程：学习G和学习D。为了取得比较稳定的效果，最好是训练k次D后训练1次G，在原始的论文中，作者是只训练1次D，就去训练G。

此外还需注意一个小问题，就是在实际情况中，常用 $- l o g (D (x))$ 代替 $V$ 中 $E_{x \sim p_{data}}[log(D(x))]$ 的 $l o g D (x)$
。因为这样可以使得G在一开始就有较大的梯度，训练过程中G在一开始生成的图像很轻易的就被D判别出来，影响最终的效果。