经典GAN学习笔记（一）

最新推荐文章于 2025-04-14 21:13:30 发布

风轻06

最新推荐文章于 2025-04-14 21:13:30 发布

阅读量293

点赞数

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/qq_34255506/article/details/106046499

版权

机器学习专栏收录该内容

1 篇文章

订阅专栏

经典GAN 学习笔记（一）

我们需要GAN做什么？

现在我们有一组数据 ${x^{1},x^{2}, x^{3}...x^{N}\}$ ，该数据的distribution 是 $P_{data}(x)$ ,该distribution未知。
我们要构造一个distribution: $P_{G}(x)$ ,使得它和 $P_{data}(x)$ 越接近越好。 $P_{G}(x)$ 可以当作一个函数，它由参数 $\theta$ 来控制，这样子我们就可以写成 $P_{G}(x|\theta)$
问题来了：那怎么衡量这两个distribution的接近程度呢？

答：我们可以通过这两个distribution之间的divergence 来衡量，即： $KL\left(P_{data}(x)||P_{G}(x)\right)$
此时可以将问题转换成如下数学表达式： $arg\underset{\theta}{min}KL\left(P_{data}(x)||P_{G}(x)\right)$
那么问题又来了：请简单描述一下上述问题的解决过程。

答：虽然对 $P_{data}未知，但是我们可以从中抽样出足够多的数据\{x^{1},x^{2},x^{3},...,x^{m}\}$ ,然后对抽样出来的数据使用 $P_{G}(x^{i})$ 计算其likelihood,likelihood越大，说明 $P_{G}$ 对应的distribution和 $P_{data}$ 的越接近。
此时问题可以转换成如下式子对应的问题：
$\begin{aligned}\tag{1}\theta^{*}=arg\underset{\theta}{max}\prod_{i=1}^{m}P_{G}({x^{i}|\theta})\end{aligned}$
对以上式子做一些处理： $\begin{aligned} \theta^{*}&=arg\underset{\theta}{max}\prod_{i=1}^{m}P_{G}({x^{i}|\theta})\\ &=arg\underset{\theta}{max} \quad log\prod_{i=1}^{m}P_{G}(x^{i}|\theta)\\ &=arg\underset{\theta}{max}\sum_{i=1}^{m}logP_{G}(x^{i}|\theta)\\ & \approx agr\underset{\theta}{max}E_{x\sim p_{data} }\left[logP_{G}(x^{i}|\theta)\right]\\ &= arg \underset{\theta}{max}\int_{x}P_{data}(x)logP_{G}(x|\theta)dx \color{red}{-\int_{x}P_{data}(x)logP_{data}(x)dx}\\ &=arg\underset{\theta}{min}\int_{x}P_{data}(x)log\frac{P_{data}(x)}{P_{G}(x|\theta)}dx\\ &= arg\underset{\theta}{min}KL\left(P_{data}||P_{G}\right) \end{aligned}$

1.减去的那个部分对式子的最终结果没有影响
那么问题来了：以上一番数学操作之后的告诉我们什么？

最后的一个式子说明：我们在maximizing $P_{G}(x^i|\theta)$ 的likelihood其实等于我们在减少 $P_{G}$ 和 $P_{data}$ 之间的divergence.

我们需要GAN构造一个 $P_{G}$

那么问题来了:怎么构造？

答：我们可以将 $P_{g}(x|\theta)$ 看成一个参数为 $\theta$ 的函数，又因为一个network可以构造出任意的函数（如果这个network的深度和neural够深够多的话)，所以我们可以考虑通过训练一个network来逼近 $P_{G}$ ,我们称这个network为generator
将1中的问题描述转换成数学问题，如下式子：
$\begin{aligned}\tag{2} G^{*}=arg\underset{G}{min}Div\left(P_{G}(x|\theta), P_{data}(x)\right) \end{aligned}$
现在问题又来了:在式子（2）中，我们并不知道 $Div\left(P_{G},P_{data}\right)$ 如何计算，怎么办？

答：可以考虑Discriminator.在GAN中D的工作是判断输入的数据是来自 $P_{data}$ 还是 $P_{G}$ ，如果是来自前者，则输出一个大的数值，是后者则输出一个较小的值。根据这样的思想，我们去训练Discriminator
问题是：如何训练Discriminator？
1. 写出Objective function如下：
  $\begin{aligned}\tag{3} V\left(G,D\right)=E_{x\sim p_{data}} \left[logD(x)\right]+E_{x\sim p_{G}}\left[log(1-D(x))\right] \end{aligned}$
2. 训练Discriminator的问题转换为如下数学式子：
  $\begin{aligned}\tag{4} D^{*} = arg\underset{D}{max}\;V\left(D,G\right) \end{aligned}$
3. 对由（3）和（4）中的数学式子进行一番操作：
  $\begin{aligned}\tag{5} D^{*}&=arg\underset{D}{max}\; V(D,G) \\ &= arg\underset{D}{max}E_{x\sim p_{data}} \left[logD(x)\right]+E_{x\sim p_{G}}\left[log(1-D(x))\right] \\ &=arg \underset{D}{max}\int_{x}P_{data}(x)logD(x)dx + \int_{x}P_{G}(x)log(1-D(x))dx \\ &=arg \underset{D}{max} \int_{x}\left[P_{data}(x)log(D(x))+P_{G}(x)log(1-D(x))\right]dx\\ \end{aligned}$
  要maximizing (5)，则相当于maximizing如下式子：
  $\begin{aligned}\tag{6} D^{*}=arg\underset{D}{max}\;P_{data}(x)log(D(x))+P_{G}(x)log(1-D(x)) \end{aligned}$
  已知： $P_{data}(x)$ 不变，在训练Discriminator的时候固定Generator，所以（6）中的 $P_{data}(x)$ 和 $P_{G}(x)$ 为常数，分别设a和b。为了方便，将D(x)简记为D。
  记：
  $\begin{aligned}\tag{7} F(D) = a*log(D)+b*log(1-D) \end{aligned}$
  要求F(D)的最大值：对F进行求导，并使之等于零。解之得：
  $\begin{aligned}\tag{8} D^{*}(x) &= \frac{a}{a+b}\\ &= \frac{P_{data}(x)}{P_{data}(x)+P_{G}(x)} \end{aligned}$
  把（8）代入（3）得：
  $\begin{aligned}\tag{9} V(G,D^{*}) &= E_{x\sim P_{data}}\left[log\frac{P_{data}(x)}{P_{data(x)}+P_{G}(x)}\right] +E_{x\sim P_{G}}\left[log\frac{P_{G}(x)}{P_{data}(x)+P_{G}(x)}\right]\\ &= \int_{x}P_{data}(x)log\frac{P_{data}(x)}{P_{data}(x)+P_{G}(x)}dx+\int_{x}P_{G}(x)log\frac{P_{G}(x)}{P_{data}(x)+P_{G}(x)}dx\\ &= -2log2 + KL\left(P_{data}||\frac{P_{data}+P_G}{2}\right) + KL\left(P_{G}||\frac{p_{data}+P_{G}}{2}\right) \end{aligned}$
  到这里：此时我们得出 $D^{*}$ ,然后再得出对应的 $V(G,D^{*})$ 的值，此时V的值最大，而这个最大的V值刚好是 $P_{data}$ 和 $P_{G}$ 之间的JSP divergence.这意味，我们终于解决了如何求得 $P_{data}$ 和 $P_{G}$ 之间的Divergence这个问题。
  
  所以式子(2)就可以作如下转换：
  $\begin{aligned}\tag{10} G^{*}&=arg\underset{G}{min}Div\left(P_{G}(x|\theta), P_{data}(x)\right) \\ &=arg\underset{G}{min}\;\underset{D}{max}V(G,D) \end{aligned}$
意思是说：我们对Discriminator进行训练,从数学上来说就最大化 Objective function的值，此时最大的值就是两个distribution之间的Divergence. 训练过程中可以使用Gradient Accent来实现。
现在，我们可以来考虑训练Generator这件事了。
写出Objective function如下：
$\begin{aligned} \tag{11} V\left(G,D\right)&=E_{x\sim p_{data}} \left[logD(x)\right]+E_{x\sim p_{G}}\left[log(1-D(x))\right]\\ &=\int_{x}P_{data}(x)logD(x)dx + \int_{x}P_{G}(x)log(1-D^{*}(G(x))) \end{aligned}$
在（11）式中，第一项表示数据从 $P_{data}$ 中取样出来，即：原始数据，对应的期望，这个和Gnerator没有关系（训练Generalator的时候Discriminator固定），所以去掉该项。第二项则表示：现在，我们已经找到了那个最好的Discriminator，它使得V(G,D)的值就是两个distribution的divergence，由Generator生成的数据，作为 $D^{*}$ 的输入，此时我们希望V（D，G）的值越小越好，即确定 $D^{*}$ 的情况下，divergence越小越好,故，我们对第二项要做点什么。

$x\sim P_{data}$ 表示数据是从 $P_{data}$ 中抽样出来的，同理， $x\sim P_{G}$ 表示数据x是从 $P_{G}$ 中抽样出来的，也可以认为对应的Generator生成
对于（11）式，直接使用Gradient decent更新 $V(G,D^{*})$ 中的参数G即可。如下：
$\begin{aligned} \theta_{g} \gets\theta_{g}-\eta\frac{\partial L(G)}{\partial \theta_{g}}\tag{12} \end{aligned}\\ 其中：G = V(G,D^{*}),D^{*}为常量 \\ G可以理解为一个函数，其中\theta_{g}为它的参数，即：G(\theta_{g})$
在6的过程中，每更新一次G，都会导致 $D^{*}$ 改变，所以在训练G的时候，只更新一次G的参数。