上一节我们描述了VAE网络的数学原理,特别强调了它能把输入数据隐射到一个区域内,这种特性带来一个特点是,如果将两个不同数据输入网络得到两个区间,这两个区间要是有重合的话,我们在重合的区域内取一点让解码器进行还原,那么被还原的数据就有可能兼具两个输入数据的特点融合,就好像孩子兼具爸爸与妈妈的特征那样,这点特性在人脸生成上大有用场。
这次我们使用CelebA数据集来训练VAE网络,该数据集包含了将近200000张人脸图像,这次我们使用的网络结构与上一节相差不大,只是在细节上要做一些改变。在上节我们网络识别的数字图片是单值灰度图,这次我们要处理RGB图像,同时由于人脸蕴含的特征远远超过数字图片,因此编码器输出的关键向量维度要从2提升到200以上;第三,为了让网络训练速度加快,我们需要在卷积层输出数据上进行呈批的正规化处理;第四,在损失函数的相关参数上要根据经验进行手动调整。
首先我们先在上一节代码的基础上构造本节需要使用的网络实例:
vae = VariationalEncoder(input_dim = [128, 128, 3],
encoder_conv_filters = [32, 64, 64, 64],
encoder_conv_kernel_size = [3,3,3,3],
encoder_conv_strides = [2, 2, 2, 2],
z_dim = 200,
decoder_conv_t_filters = [64,64,64,32],
decoder_conv_t_kernel_size = [3,3,3,3] ,
decoder_conv_t_strides = [2,2,2,2],
use_batch_norm = True,