Image2StyleGAN: How to Embed Images Into the StyleGAN Latent Space?
摘要
本文使用一种有效的算法,能够将图片映射到styleGAN的潜在空间,使用FFHD训练好的styleGAN作为实例,演示风格转化,表达转化等。通过研究这个算法的编码结果提供一种研究styleGAN 潜在空间的有效方法。文中通过一系列的试验来测试,什么样的图片可以编码?它们怎么编码?什么样的潜在空间适用于编码?编码是否有意义?
本文的贡献
- 提出了一种有效算法,可以将一个image转化到预训练模型的潜在空间W+。
- 从syleGAN潜在空间结构的视角出发研究了多种问题,什么样的图像可以转化成latent code? 什么样的脸可以被转化?什么样的潜在空间适合转化。
- 采用基于向量的三个基本算法,来研究转化的质量如何,这样可以更好的理解潜在空间,以及不同的被编码的图像类别,作为本文的辅助成果,文中的人脸编辑,风格转化,表达转化的试验去得了惊人的效果。
潜在空间转化
图像映射到潜在空间的方法一般有两种:
- 训练一个编码器,可以将图像转化到潜在空间。
- 随机初始化一个latent code 并且使用梯度下降的方法去优化它。
由于第一种方法虽然快速,但是经常会生成超越潜在空间之外的latent code。所以本文选择的是第二种方法。
Percetual Loss 和 风格转化
这一部分不属于文章的主体,主要是介绍了风格转化和Percetual Loss感觉有些用处也就列了出来。
Percetual Loss 表示两张图片经过vgg提取特征后,衡量两个特征相似度的Loss。一般来说VGG的每一层的featuremap 可以分离成图片内容,图片风格两种类别。早起的风格转化中,一般一种风格就需要专门训练一个模型,但是后来有的学者通过激活距离标准化的方法,解决了合格问题,可以在一个模型中实现多种风格