生成对抗网络是最近几年的热门研究方向,最近因为需要采用生成对抗网络对语音信息进行数据增广、增强处理,对一些论文进行了总结,如有不对之处,请大家多多指正。
生成对抗网络
生成对抗网络GAN(Generative adversarial networks)是在2014年由Ian Goodfellow大牛基于博弈论提出的,原文。如下图所示,生成对抗网络由两部分组成:生成器(Generator,G)和判别器(Discriminator,D)。生成器接收一个随机噪色,通过生成模型(一般为神经网络)生成一个假的样本。而判别器的输入为一个样本,通过判别网络判断这个输入的样本是来自于真实的数据还是由生成器生成的假数据。通过训练,判别器会给真实样本输出尽可能大的概率值,给生成样本尽可能小的概率值,而生成器会不断学习真实样本的数据分布,生成尽可能真的数据,直到判别器也无法判别这个样本是真实样本还是由生成样本(判别器的输出概率为0.5),即达到纳什平衡。
损失函数
由上面的描述可知,生成判别网络训练的时候,对于真实样本,判别器的输出越大越好(接近于1),即D(x)越大越好,而对于由生成器生成的样本,判别器的输出越小越好,即D(G(z))越小越好,但这两者是矛盾的,因此为了统一表示,将生成样本对应的判别器输出改写为1-D(G(z)),这样就能将这两者统一进行优化了,其损失函数可表示为:
这是一个最大最小优化,即包含了判别模型的优化,又包含了生成模型以假乱真的优化。</