【研究生工作周报】（stylegan）

原创

已于 2022-10-02 08:03:03 修改 · 2.2k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #机器学习 #生成对抗网络

于 2022-10-02 03:38:51 首次发布

本文深入剖析了StyleGAN的设计理念，从ProGAN的局限性出发，详细介绍了StyleGAN如何通过Mapping Network和AdaIN等机制实现对图像生成过程的精细控制，以及如何量化隐空间解耦的效果。

StyleGAN提出的背景

ProGAN：
NVIDIA在2017年提出的ProGAN解决了生成高分辨率图像(如1024×1024)的问题。ProGAN的关键创新之处在于渐进式训练——从训练分辨率非常低的图像(如4×4)的生成器和判别器开始，每次都增加一个更高的分辨率层。

缺陷：与多数GAN一样，ProGAN控制生成图像的特定特征的能力非常有限。这些属性相互纠缠，即使略微调整输入，会同时影响生成图像的多个属性。所以如何将ProGAN改为条件生成模型，或者增强其微调单个属性的能力，是一个可以研究的方向。

解决方法：StyleGAN是NVIDIA继ProGAN之后提出的新的生成网络，其主要通过分别修改每一层级的输入，在不影响其他层级的情况下，来控制该层级所表示的视觉特征。这些特征可以是粗的特征（如姿势、脸型等），也可以是一些细节特征（如瞳色、发色等）

前言

一、ProGAN框架

ProGAN首先通过学习即使在低分辨率图像中也可以显示的基本特征，来创建图像的基本部分，并且随着分辨率的提高和时间的推移，学习越来越多的细节。低分辨率图像的训练不仅简单、快速，而且有助于更高级别的训练，因此，整体的训练也就更快。
在这里插入图片描述

Generator 在训练过程中网络的结构是在动态变化的。那种依次连接不同分辨率空间的网络模型叫做 StackGAN，但是 StackGAN 不适合用来做超清图片生成，因为会特别慢。
在这里插入图片描述
2x，0.5x利用最近邻卷积和平均池化分别对图片分辨率加倍和折半。
对真实样本也做了类似(b)的平滑过渡，训练过程中某个batch真实样本可以表示为
$X_{16p} \times(1-\alpha) + X_{32p} \times \alpha$