生成对抗网络原始论文解读

最新推荐文章于 2024-07-09 02:10:37 发布

kevinoop

最新推荐文章于 2024-07-09 02:10:37 发布

阅读量3.9k

点赞数 5

CC 4.0 BY-SA版权

分类专栏： GAN 文章标签：生成对抗网络-GAN

本文链接：https://blog.youkuaiyun.com/kevinoop/article/details/79824873

GAN 专栏收录该内容

1 篇文章

订阅专栏

生成对抗网络原始论文重点解读

原文：https://arxiv.org/pdf/1406.2661.pdf

一、GAN基础

“D和G的训练是关于值函数V(G, D)的极小极大化的二人博弈问题”。

min G max D V (D, G) = E p d a t a (x) [l o g (D (x))] + E p z (z) [l o g (1 - D (G (z)))] \dots (1) (9)

$\begin{gather} {\min_{G}\max_{D}} V(D,G)={E_{p_{data}(x)}}[log(D(x))]+E_{p_z(z)}[log(1-D(G(z)))] \ldots (1) \end{gather}$

其中：

max D V (D, G) = E p d a t a (x) [l o g (D (x))] + E p z (z) [l o g (1 - D (G (z)))] \dots (2)

${\max_{D}} V(D,G)={E_{p_{data}(x)}}[log(D(x))]+E_{p_z(z)}[log(1-D(G(z)))]\ldots (2)$
等价于

min D V (D, G) = - \int P d a t a (x) [l o g (D (x))] d x - \int P z (z) [l o g (1 - D (G (z)))] d z

${\min_{D}} V(D,G)=-\int{P_{data}(x)[log(D(x))]}dx-\int P_z(z)[log(1-D(G(z)))]dz$
因此可以看作是最小化交叉熵，不断最小化交叉熵的结果使得判别器D判别真实数据和生成的假数据的能力逐渐增强。形象地说就是使得D将真实数据和假数据尽最大能力的分开。

In practice, equation may not provide sufficient gradient for G to learn well. Early in learning, when G is poor, D can reject samples with high confidence because they are clearly different from the training data. In this case, log(1 − D(G(z))) saturates. Rather than training G to minimize log(1 − D(G(z))) we can train G to maximize log D(G(z)).

实际上，等式(1)没有提供给生成器G不断优化所需的足够梯度。因此在训练的初期，当生成器G还很弱时，由于生成的假数据明显不同于训练的真实数据，判别器D有高的置信度去拒绝这些假样本。在这里， $log(1 − D(G(z)))$ 是饱和的。因此，我们用最大化 $log D(G(z))$ 替代最小化 $log(1 − D(G(z)))$ 来训练G。我们可以通过下面的图来看看：

这里写图片描述

很明显， $log(1 − D(G(x)))$ 函数的导数由小变大，说明起初训练时更新速度会很慢（训练方法为mini-SGD）。但相反， $log D(G(z))$ 函数的导数由大变小，符合我们实际训练时的要求（起初提供的梯度大，更新速度快，越接近最优值时更新的幅度越小）。

二、全局最优推导

命题1

固定生成器G，我们考虑最优的 $D^*$ ：

V (G, D) = \int P d a t a (x) [l o g (D (x))] d x + \int P z (z) [l o g (1 - D (G (z)))] d z = \int P d a t a (x) [l o g (D (x))] + P g (x) [l o g (1 - D (G (x)))] d x (10)

$\begin{align} V(G,D)=\int{P_{data(x)}[log(D(x))]}dx+\int P_z(z)[log(1-D(G(z)))]dz =\int{P_{data}(x)[log(D(x))]}+P_g(x)[log(1-D(G(x)))]dx \end{align}$
对于这个积分，要取其最大值，我们希望对于给定的x，积分里面的项是最大的，也就是我们希望取到一个最优的

D∗ D ∗ $D^∗$ ，使得下面这个式子最大化

f (D (x)) = P d a t a (x) l o g (D (x)) + P g (x) l o g (1 - D (x))

$f(D(x))=P_{data}(x) log(D(x)) +P_g(x) log(1-D(x))$
我们通过求导：

f' (D (x)) = P d a t a ( x ) D ( x ) - P g ( x ) 1 - D ( x )

$f'(D(x))=\frac{P_{data}(x)}{D(x)}-\frac{P_g(x)}{1-D(x)}$
令上式等于0，整理得：

D * (x) = P d a t a ( x ) P d a t a ( x ) + P g ( x )

$D^*(x)=\frac{P_{data}(x)}{P_{data}(x)+P_g(x)}$
下图帮助理解：

这里写图片描述

该图转自译文 | 2014，初见GAN：解读GAN原始论文（含译文PDF下载）

定理1

当且仅当 $p_g=p_{data}$ 时， $C(G)$ 达到 $-log4$ 。
证明：
将

D * (x) = P d a t a ( x ) P d a t a ( x ) + P g ( x )

$D^*(x)=\frac{P_{data}(x)}{P_{data}(x)+P_g(x)}$ 代入 (2) 式，有：

C (G) = V (G, D *) = E p d a t a (x) [l o g (D * (x))] + E p g [l o g (1 - D * (x))] = \int P d a t a (x) l o g (P d a t a ( x ) P d a t a ( x ) + P g ( x )) d x + \int P g (x) l o g (P g ( x ) P d a t a ( x ) + P g ( x )) d x = {\int P d a t a (x) l o g (P d a t a ( x ) P d a t a ( x ) + P g ( x )) d x + l o g 2} + {\int P g (x) l o g (P g ( x ) P d a t a ( x ) + P g ( x )) d x + l o g 2} - 2 l o g 2 = \int P d a t a (x) l o g (2 P d a t a ( x ) P d a t a ( x ) + P g ( x )) d x + \int P g (x) l o g (2 P g ( x ) P d a t a ( x ) + P g ( x )) d x - l o g 4 = K L (P d a t a (x) | | P d a t a ( x ) + P g ( x ) 2) + K L (P g (x) | | P d a t a ( x ) + P g ( x ) 2) - l o g 4 = - l o g 4 + 2 J S D (P d a t a (x) | | P g (x)) (11) (12) (13) (14) (15) (16) (17) (18) (19) (20) (21)

$\begin{align} C(G)&=V(G,D^*)\\ &={E_{p_{data}(x)}}[log(D^*(x))]+E_{p_g}[log(1-D^*(x))]\\ &=\int P_{data}(x) log(\frac{P_{data}(x)}{P_{data}(x) +P_g(x)})dx +\\ &\quad \int P_g(x) log(\frac{P_{g}(x)}{P_{data}(x)+P_g(x)})dx\\ &=\left\{\int P_{data}(x) log(\frac{P_{data}(x)}{P_{data}(x) +P_g(x)})dx+log2\right\}+\\ &\quad \ \left\{\int P_g(x) log(\frac{P_{g}(x)}{P_{data}(x)+P_g(x)})dx+log2\right\}-2log2\\ &=\int P_{data}(x) log(\frac{2P_{data}(x)}{P_{data}(x) +P_g(x)})dx+\\ &\quad \int P_g(x) log(\frac{2P_{g}(x)}{P_{data}(x)+P_g(x)})dx-log4\\ & =KL(P_{data}(x)||\frac{P_{data}(x)+P_g(x)}{2})+\\ &\quad \ KL(P_g(x)||\frac{P_{data}(x)+P_g(x)}{2})-log4\\ &=-log4+2JSD(P_{data}(x)||P_{g}(x)) \end{align}$

由于JS散度是大于等于0小于等于1的（当P1，P2完全相同时，那么JS =0，如果完全不相同，那么就是1）。因此当 $p_g=p_{data}$ 时， $C(G)$ 有最小值 -log4。