QQ Group: 428014259
Tencent E-mail:403568338@qq.com
http://blog.youkuaiyun.com/dgyuanshaofeng/article/details/80035454
0 摘要
DCGANs,如作者描述 ,“have certain architectural constraints”,即设计原则依赖大量的尝试。
无监督学习到的特征,可作为通用图像表征。
1 介绍
2 相关工作
2.1 在无标注数据中学习表征
即无监督表征学习,其中,K-means就是一种经典方法。
在神经网络中,自编码器auto-encoder也是一种流行方法。
2.2 生成自然图像
生成图像模型分为参数和非参数型。非参数型,经典和熟知的有PatchMatch,等等。参数型,提及Kingma和Welling的变分采样方法,即VAE,其常见的缺陷为生成图像是模糊的。还提及,原始GAN和LAPGAN(拉普拉斯GAN)。
2.3 可视化卷积网络的内部神经元
提及两个经典工作,Zeiler的去卷积/反卷积/转置卷积,Mordvintsev的梯度上升。
3 方法和模型架构
通过“extensive model exploration”,作者发现了一族网络架构是可以稳定学习的,并且可以采用更深的模型,可以训练更高分辨率的图像。
作者发现三点设计原则:
其一,采用全卷积网络。strided convolutions代替池化。
其二,移除全连接层。作者发现,全局均值池化可以提高模型稳定性,但是损害收敛速度。
其三,使用Batch Normalization。BN可稳定学习,可防止生成器的模型坍塌。不要在生成器的输出层和判别器的输入层使用BN。
生成器中除了最后一层使用Tanh激活函数,其它层的激活函数采用ReLU。【后来,建议采用泄漏ReLU】作者发现,bounded activation使得模型学习很快饱和,覆盖训练分部的彩色空间。在判别器中,泄漏ReLU更好。原始GAN使用maxout激活并不好。
总而言之,记住如图1所示的设计指导。

4 对抗训练的细节
数据集:Large-scal Scene Understanding(LSUN), ImageNet-1k
学习率为0.0002
Adam里面的
β
1
\beta_1
β1由0.9改为0.5,可稳定训练
4.1 LSUN
不采用数据扩充。
4.2 FACES
不采用数据扩充。35万人脸。
4.3 ImageNet-1k
不采用数据扩充。【所以生成任务,不需要进行数据扩充?改变了数据分布,增加拟合难度?还是增加重复图像?】
5 DCGAN能力的经验验证
5.1 使用GAN作为特征提取器,对CIFAR-10进行分类
如原文Table 1所示,利用判别器的特征进行分类,超越非深度学习方法的精度,但是差于Exemplar CNN。
5.2 使用GAN作为特征提取器,对SVHN进行分类
如原文Table 2所示,error rate最低。
6 探究和可视化网络内部
6.1 隐空间游走
6.2 可视化判别器的特征
6.3 操作/编辑生成器的表征
7 结论和未来工作
[1] Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks 2015 [Arxiv paper]