生成对抗网络GAN学习

最新推荐文章于 2025-07-26 15:26:11 发布

原创最新推荐文章于 2025-07-26 15:26:11 发布 · 444 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

生成对抗网络GAN是一个无监督的由生成模型与判别模型二者互相优化组成的模型。

GAN的代码实现里有几个关键点：

1. 对于生成模型，假设数据为mnist数据，则其输入为一个提前设定长度的一个随机向量向量，如可以设置向量长度为100维。

2. 为了更好的生成数据，进一步有受限GAN模型，具体操作为在每一层中，将具体的要生成的类别与当前层的输入联结起来共同作为输入，

（虽然这样的办法简单粗暴，但确实有用），如对于mnist想要生成数字0，对于输入层，在其输入的100维随机向量后，增加一个100维的向量

（1,0,0,0,0,0,0,0,0,0,0），构成110维度的向量作为生成模型的输入。

3.由于生成模型需要根据一个向量生成一个图片，因此它的模型与判别模型过程相反，层次顺序可以为：

全连接层 --》全连接层 --》反卷积层 --》sigmod层 --》》生成图像

这里前面两个全连接层主要是为了增加数据的维度，如一开始输入为1×10，下一步为1×1024，再下一步为1×128*7*7，

然后将其reshape后变成一个四维tensor，这样就能参与到反卷积中了，反卷积后生成大小为1*1*28*28的一幅图像。

具体GAN实现的一个系列博客：http://www.cnblogs.com/Charles-Wan/p/6266279.html

博客中的代码，在计算loss时，用到了tf中ones函数与zeros函数，这两个函数的使用相当于去除掉了交叉熵中的各一半，以便

吻合GAN中的损失函数。具体的公式及说明见博客：

http://www.cnblogs.com/Charles-Wan/p/6501945.html

判别模型的目的是最大log(x) + log(1-x')，其中x是真是图片的sigmod输出，x'是假图片的sigmod输出。

（这样，就能使得x越接近1，x'越接近0）

生成模型的目的是最小化log(1-x')，这样，就能使得1-x'越接近0，即x'越接近1。

————————————————————————————————————————————————————————

反卷积最早提出来的论文：Deconvolutional Networks

http://www.matthewzeiler.com/wp-content/uploads/2017/07/cvpr2010.pdf

关于反卷积的一个博客：http://blog.youkuaiyun.com/mao_xiao_feng/article/details/71713358

在Tensorflow中实际操作反卷积时，其实是类似转置的方式，即其操作翻卷机与正向卷积的操作一样，都是正向矩阵相乘的过程。

这样的变换不影响结果。

————————————————————————————————————————————————————————

与Tensorflow相关的一些问题：

Tensorflow中在graph中，每个节点可以为一个variable，而设计到函数重用时，如函数A中生成某个名字的权重矩阵（变量），然后同时有

B与C函数调用A，那么就需要实现变量共享。

变量共享是通过get_variable()函数与variable_scope()来实现的。后者相当于在A函数变量的基础上增加了一个命名空间，用以区别B与C

生成的相同名字的变量。

tensorflow中的函数在操作变量时，是将这个变量放在了graph中，在函数结束时，将保留这个放置好的状态。

如果还有个函数D以此操作B函数两次，例如生成两个相同的卷积层，那么最简单的方式就是在第二次调用B之前执行一次这个函数：

get_variable_scope().reuse_variables()

这个轻量级的函数可以自动将上下两次的A函数生成的变量区分开来。

但还有个问题，设计到optimizer时，对于调用过reuse_variables()的函数来说，一定要将其恢复到非reuse的状态，否则optimizer找不到

这个variable，而恢复reuse是在函数结束或者在一个scope中才可以。因此，对于连续操作两次B，需要将这两次操作放在一个scope中。

如下代码：

with tf.variable_scope(tf.get_variable_scope()):

D,D_logits = discriminator(images,y)

#调用一次reuse以便下面继续使用B函数，即discriminator

tf.get_variable_scope().reuse_variables()

D_,D_logits_ = discriminator（G,y)

samples = sampler(z,y)

很多人遇到这个问题，这个问题的官方tensorflow的解释：

https://github.com/tensorflow/tensorflow/issues/6220

但奇怪的时，随机梯度下降算法的optimizer不会报错，别的optimizer比如Adam，Adalet等都会出现这个错误，因此，在连续两次这样的

操作上加上一个scope为暂时的解决方案。

——————————————————————————————————————————————————————

其实GAN本身有很多的问题，由于需要最小化两个目标，而这两个目标又是对立的，即又需要最小化A+B，又需要最大化A。

直观上一看就知道loss的大小不能表示训练的好坏，即训练过程没法通过loss大小看出来。

另外一个问题就是训练过程中容易出问题，即某一个梯度训练不了了。

举个非常直白的例子：A，B两个人各自拿着一块海绵，两人面对面互相推，二者的最终目的是，海绵压倒不能再压，两人的力量达到平衡。

GAN训练的过程可以认为首先B固定不动，A使劲，这样A的海绵压一点儿，然后A固定不动，B使劲，B的海绵压一点儿，这样

到最后总能达到一个平衡。

但是：如果在B固定的过程中，A压的时候用力的方向并不是直接面向B的，而是偏向了一边，两个人错开了。

这样就倒置两个人之间的互相作用崩溃，两个人再按照上面的方式用力，那只能两个人互相维持自己的海绵的状态了。

当然这只是一个能帮助理解的例子，这里有一个讲的非常好的博客：

https://zhuanlan.zhihu.com/p/25071913

WGAN对GAN进行的分析与给出的解决方案的论文：Wasserstein GAN

这篇文章作者的思路与数学功底真强。

———————————————————————————————————————————————————————

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。