讲解三种Generative Model:PixelRNN、Variation Auto-encoder、Generative Adversavial Network
一、PixelRNN
利用前面已知的像素和预测的像素逐一对后面的像素进行预测。如图所示,输入是变化的,第一次使用一个像素预测后面的像素,随后使用前面两个像素预测再后面的像素。。。

以下是声信号的预测,RNN逐一根据前面的n个片段输出一个新片段。


图像预测训练实验:对于给定部分遮挡图预测整幅图片。
处理tips:RGB颜色数据量比较大,实验对相似颜色进行合并,然后做one-hot编码,得到167种颜色(像素),实验简单的使用了1层LSTM+512cells,训练之后预测结果如图所示。


二、变分自编码器:Variance Auto-encoder(VAE)
结构:采用普通的自编码器重建训练样本,当随机输入一个input时,模型产生的预测值可能并不理想,因此提出了一种VAE模型,它对编码的code做了改进,对于每一个样本,让其产生两个code——图中的[m1,m2,m3]与[σ1,σ2,σ3](实际上是想让编码器自动

本文深入探讨三种Generative Models:PixelRNN、变分自编码器(VAE)和生成对抗网络(GAN)。PixelRNN利用像素预测进行图像生成;VAE通过学习编码的均值和方差实现样本生成,并可通过调整编码控制图像变化;GAN通过两个网络的对抗训练生成逼真图像,但训练过程复杂。
最低0.47元/天 解锁文章
333

被折叠的 条评论
为什么被折叠?



