GAN的基本原理

最新推荐文章于 2025-03-03 16:48:35 发布

原创

最新推荐文章于 2025-03-03 16:48:35 发布 · 2.5k 阅读

1 ·

CC 4.0 BY-SA版权

GAN（生成对抗网络）由生成器和判别器组成，通过博弈学习生成逼真的样本。在训练过程中，判别器尝试区分真实样本与生成器产生的假样本，而生成器则试图生成更接近真实样本的实例。GAN已被应用于图像生成等领域，其在机器学习中与最大似然估计有所不同，使用了不同的散度度量。WGAN通过地球 mover's 距离解决了原始GAN的收敛问题，确保了有效的指导信号。

GAN 简介

GAN的工作原理

generator 和 discriminator相互博弈：

discrimiator最大化真实样例与generator样例之间的差异
generator根据discriminator“反馈的指导信息”，更新参数，生成“更靠谱”的样例，减小与真实样例的差异。

Minimax Game:

m i n G m a x D V (G, D)

$min_G\; max_D\; V(G, D)$
在origin GAN中：

V = E x \sim P d a t a [l o g D (x)] + E x \sim P G [l o g (1 - D (x))]

$V = E_{x\sim P_{data}}[logD(x)] + E_{x \sim P_G}[log(1-D(x))]$
一般而言，G是neural network, 它从一个先验分布

PzPz $P_z$ ,生成x,上式写成：

V = E x \sim P d a t a [l o g D (x)] + E z \sim P z [l o g (1 - D (G (z)))]

$V = E_{x\sim P_{data}}[logD(x)] + E_{z \sim P_z}[log(1-D(G(z)))]$

GAN的应用示例

目前，Tensorflow 1.4已经提供了一些gan的实现，在tf.contrib.gan中；另外，有很多开源的GAN的实现。（示例略，可以参加mnist上的各种实验和DCGAN、WGAN等生成的图片）

GAN与ML

LR判别模型

样本实例集合： $D = \{(x^i, y^i)\}_{i=1}^n$
利用最大似然(ML), 求解判别模型： $h_{\theta}(x) = \frac{1}{1+e^{-\theta^T x}}$

θ * = a r g m a x 1 n \sum i = 1 n y i l o g h θ (x i) + (1 - y i) l o g (1 - h θ (x i)) = a r g m a x 1 n \sum y i = 1 l o g h θ (x i) + \sum y j = 0 l o g (1 - h θ (x j)) = a r g m a x | D 1 | n 1 | D 1 | \sum D 1 l o g h θ (x i) + | D 0 | n 1 | D 0 | \sum D 0 l o g h θ (x j) = a r g m a x P (y = 1) E x \sim P (x | y = 1) [l o g h θ (x)] + P (y = 0) E x \sim P (x | y = 0) [l o g (1 - h θ (x))]

$\theta^* = arg\ max\ \frac{1}{n}\sum_{i=1}^n y^i log\ h_\theta(x^i) + (1-y^i)log(1-h_\theta(x^i)) \\ = arg\ max\ \frac{1}{n} \sum_{y^i=1}log\ h_{\theta}(x^i) + \sum_{y^j=0} log(1-h_\theta(x^j))\\ = arg\ max\ \frac{|D_1|}{n} \frac{1}{|D_1|} \sum_{D_1}log\ h_{\theta}(x^i) + \frac{|D_0|}{n} \frac{1}{|D_0|} \sum_{D_0}log\ h_{\theta}(x^j)\\ = arg\ max\ P(y=1)E_{x\sim P(x|y=1)}[log h_\theta(x)] + P(y=0)E_{x\sim P(x|y=0)}[log (1-h_\theta(x))]$
事实上，当假设空间

hθ(x)hθ(x) $h_\theta(x)$ 有足够强的表征能力，（比如真实分布确实由LR模型生成，或者

hθhθ $h_\theta$ 是深层神经网络，可以表征任意函数）；通过求导，可以得到最优解为：

h * θ (x) = P ( y = 1 ) P ( x | y = 1 ) P ( y = 1 ) P ( x | y = 1 ) + P ( y = 0 ) P ( x | y = 0 ) = P ( x , y = 1 ) P ( x ) = P (y = 1 | x)

$h^*_\theta(x) = \frac{P(y=1)P(x|y=1)}{P(y=1)P(x|y=1) + P(y=0)P(x|y=0)} \\ = \frac{P(x, y=1)}{P(x) } = P(y=1 | x)$
(额，貌似推理了一句废话，不过这个公式正说明，当我们采用ML或者cross entropy的时候，最优解正是后验概率（条件概率），前提是

hθ(x)hθ(x) $h_\theta(x)$ 有足够强的表征能力。推导这个式子，也可以和后面推导

D∗D∗ $D^*$ 相互验证)
观察式子：