GAN论文研读(一)—–GAN与cGAN
一开学就被各种杂事围攻,也没有心情写博文,不知不觉间已经四个多月没冒泡了(好吧我就是找了个借口~)。考虑到之前写的几篇博文一直没人点踩(zan),在小C同学的启发下,接下来的文章我将以专题的形式发布。
1. 引言
深度学习在图像分类、自然语言处理等领域已取得了卓越的成就。在GAN被提出之前,这些成就主要出现在判别式模型中,通过将高维特征映射为类别标签,直接对该映射过程的参数进行优化,可以在大多数问题上取得较好的效果。相对于判别模型,生成模型与深度网络直接对特征-标签映射进行建模的出发点并不一致。生成模型希望在给定随机变量X先验分布的条件下,生成随机变量Y的条件概率分布P(Y|X),如生成人脸图像、图像风格转换等,这一过程很难直接用分段的线性单元实现。为此,Goodfellow在2014年提出生成对抗网络。该模型中含有两个神经网络,一个判别器D用于判别图像真假,另一个生成器G生成图片迷惑D。实际效果显示二者在相互切磋的过程中,各自的能力会不断加强。模型最终的目的是生成器G生成的图像能够以假乱真。GAN在图像生成方面取得了巨大成功,各种变种不断出现,渐渐弥补了原始GAN模型的各种缺点。本篇博客要介绍的就是GAN的开山之作,Goodfellow在2014年投到NIPS的《Generative Adversarial Nets》以及Mirza的改进《Conditional Generative Adversarial Nets》。
2. GAN与cGAN
2.1 生成对抗网络及其缺点
GAN包含两个神经网络,一个生成网络 G G 和一个判别网络
。 D D 接受真实图像或者
生成的图像,将其映射为一个标量,该标量代表着输入图像是真图像的概率,越接近1,输入图像是真图像的概率就会越大,在此基础上, G G 从一个服从高斯分布的噪声
开始,通过网络前向传播生成一幅图像,并希望该图像能够迷惑 D D ,二者构成一种博弈,该博弈过程可描述成如下优化问题。
其中 X