StyleGAN 阅读笔记（翻译）_r1正则化-优快云博客

本文提出一种基于风格的生成器架构，用于生成对抗网络(GANs)。该架构能够自动学习生成图像中的高级属性（如姿势、身份）与随机变化（如雀斑、头发）分离，实现直观的特定尺度混合和插值操作。此外，文中还介绍了两种新的自动化度量方法，用于量化生成器的插值质量和解纠缠度。

A Style-Based Generator Architecture for Generative Adversarial Networks

作者：Tero Karras{NVIDIA}, Samuli Laine{NVIDIA}, Timo Aila{NVIDIA}

会议：CVPR 2019

以下是个人做的大致翻译（不是全部的翻译）或段落总结，如果直接想看文章总结，这个网址的内容写的很好 https://zhuanlan.zhihu.com/p/63230738。

Abstract

我们提出的新结构可以自动学习高级属性（例如姿势和人脸训练时的身份）和生成图片的随机变化，并且它可以直观的、尺度特定的进行合成控制。我们的生成器表现出更好的插值属性，还可以更好的弄清变化的潜在因素。为了量化插值质量和解纠缠度（disentanglement），我们提出了两种适用于任何生成器体系结构的自动化方法。最后，我们介绍了一个新的、高度多样化和高质量的人脸数据集。

1. Introduction

不同方面图像合成的理解（例如随机特征的起源）目前仍很缺乏，隐向量空间的属性难以理解，且通常的隐向量插值没有提供不同生成器的量化对比。

我们的生成器从一个已知的常量输入开始，基于隐编码在每个卷积层调整图像的“style”，因此可以在不同尺度直接控制图像特征的强度。与直接注入网络的噪声相结合，这种架构变化可以自动、无监督地学习到生成图像中的高级属性(如姿态、身份)与随机变化(如雀斑、头发)分离，并实现直观的特定尺度混合和插值操作。我们不以任何方式修改鉴别器或损失函数，因此我们的工作与正在进行的关于GAN损失函数、正则化和超参数的讨论是正交的。

我们的生成器将输入潜编码嵌入到中间潜空间中，这对于网络中变化因素如果被表征，产生了重大影响。输入潜空间必须遵循训练数据的概率密度，故会导致某种程度上不可避免的纠缠。以前估计潜在空间解缠程度的方法不能直接适用于我们的情况，我们提出了两个新的自动度量方法——感知路径长度和线性可分性——来量化生成器的这些方面。使用这些指标，我们展示了与传统生成器架构相比，我们的生成器对不同变化因素的表示更线性，更少纠缠。

最后，我们提出了一种更高质量、包含更多变化的人脸数据集。

2. Style-based generator

传统上，潜编码是通过输入层提供给生成器的，即前馈网络的第一层(图1a)。我们抛弃了这种设计，完全忽略了输入层，而是从一个已知的常数开始(图1b，右)。给定输入潜空间 $Z$ 中的潜码 $z$ ，非线性映射网络 $f : Z \to W$ 首先产生 $w \in W$ (图1b，左)。为简单起见，我们设置的维度都为512，映射 $f$ 都是使用8层MLP（Multilayer perceptron，多层感知器）实现的，我们将在4.1节中分析这个决策。然后，学习到的仿射变换会将 $w$ 特殊化为样式 $y =(y_s，y_b)$ ，以控制合成网络g的每个卷积层之后的自适应实例规范化（AdaIN，adaptive instance normalization）操作。AdaIN操作被定义为：
在这里插入图片描述
其中，每个特征映射 $x_i$ 独立标准化，然后使用风格y中对应的标量分量进行缩放和偏置。因此，y的维数是该层上特征图数量的两倍。

比较我们的风格迁移方法，我们是从向量 $w$ 中计算空间不变的风格 $y$ ，而不是从一个示例图像中。

最后，我们通过引入显式噪声输入（explicit noise inputs）来生成随机细节。这些是由不相关的高斯噪声组成的单通道图像，我们将专门的噪声图像提供给合成网络的每一层。使用学习到的每个尺度因子特征，将噪声图片广播到所有的特征图上，然后加上相应的卷积的输出，如图1b所示。

2.1. Quality of generated images

在这里插入图片描述

对于CelebA-HQ，我们使用WGAN-GP; FFHQ对配置a使用WGAN-GP，对配置b-f使用 $R_1$ 正则化的非饱和损失（non-staturating loss with $R_1$ regularization）。我们发现这些选择给出了最好的结果。我们的贡献不修改损失函数。

注意，我们的生成器只允许在低分辨率下有选择地应用截断（truncation trick），这样高分辨率细节就不会受到影响。

2.2. Prior art

3. Properties of the style-based generator

**我们的生成器可以通过特定尺度上的修改来控制图像合成。**我们可以将映射网络和仿射转换看作是一种从学习分布中为每种风格绘制样本的方法，而综合网络则是一种基于风格集合生成新图像的方法。每种style的效果在网络中都是局部的，也就是说，修改styles的一个特定子集可能只会影响图像的某些方面。

为了了解这种局部化的原因，让我们考虑一下AdaIN操作(Eq. 1)如何标准化每个通道的均值和单位方差，然后基于风格应用尺度和偏差。新的每通道统计信息(由风格决定)修改了特征对于后续卷积操作的相对重要性，但由于标准化，它们不依赖于原始统计信息。因此，每个样式在被下一个AdaIN操作覆盖之前只控制一个卷积。

3.1. Style mixing

为了进一步鼓励style的本地化，我们使用mixing regularization，即在训练过程中使用两个随机的隐编码而不是一个，来生成给定百分比的图像。当生成这样的图像时，我们只需在合成网络中随机选择的点从一个潜编码切换到另一个潜编码——我们称之为风格混合。具体来说，我们在映射网络中运行两个潜编码 $z_1$ , $z_2$ ，并有相应的 $w_1$ , $w_2$ 控制风格， $w_1$ 在交叉点之前应用， $w_2$ 在交叉点之后应用。这种正则化技术避免了网络中相邻风格是相关的（增加了多样性）。

（在表格中能看出，俩个隐向量可以达到最佳效果，多了也不好）

图中展示了从低分辨率到高分辨引入另一个隐变量的结果差异（对应低级特征和高级特征）。

3.2. Stochastic variation

传统的随机变化是用网络的输入层来产生，但是这样总会导致重复（周期性）的模式产生。而我们带有不同噪声实现的生成器则避免了这种情况，见图4和图5。

3.3. Separation of global effects from stochasticity

风格的改变有全局影响(改变姿势、身份等)，噪音影响不重要的随机变化(不同梳理的头发、胡须等)。

在我们的基于风格的生成器中，风格会影响整个图像，是因为完整的特征图会用相同的值进行缩放和偏置。因此，全局效果，如姿势，灯光，或背景风格可以控制一致。而噪声是独立地添加到每个像素，因此非常适合控制随机变化。如果网络试图控制，例如使用噪音来修改姿势，这将导致空间不一致的决定，然后将被鉴别器惩罚。因此，在没有明确的指导下，网络学会了适当地使用全局和局部的通道。

4. Disentanglement studies

解纠缠有多种定义，但一个共同的目标是生成由线性子空间组成的潜空间，每个子空间控制一个变化因素。但是， $Z$ 中每个因子组合的抽样概率需要与训练数据密度想匹配。如图6所示，这排除了典型数据集和输入潜在分布完全分离的因素。

我们的生成器结构的一个主要好处是，中间潜空间 $W$ 不必支持根据任何固定分布进行采样；它的采样密度是由学到的**分段连续映射 $f (z)$ **引起的（8层MLP）。该映射可以适应于“非扭曲unwrap” $W$ ，以使变化因子变得更加线性。我们假定生成器应该这样做，因为基于解纠缠的表示比基于纠缠的表示，生成真实的图像应该更容易。因此，我们期望训练在无监督的情况下（即，事先不知道变化的因素时）产生较少纠缠的 $W$ 。

不幸的是，最近提出的量化解纠缠度量要求编码器网络将输入图像映射到潜编码。这些指标不适合我们的目的，因为我们的基准GAN缺少这样的编码器。虽然可以为此添加额外的网络，但我们希望避免将精力投入到不是实际解决方案的一部分组件上。为此，我们描述了两种量化解缠的新方法，这两种方法都不需要编码器或已知的变化因子，因此对任何图像数据集和生成器都是可行的。

4.1. Perceptual path length

正如Laine所指出的，潜向量的插值可能会在图像中产生令人惊讶的非线性变化。例如，两个端点都没有的特征可能出现在线性插值路径的中间。这说明潜空间是纠缠的，并和变化因素没有适当分开。为了量化这个效果，我们可以测量当我们在潜在空间中执行插值时图像所经历的剧烈变化。从直觉上看，一个弯曲程度较低的潜空间应该比高度弯曲的潜空间在知觉上更平稳地过渡。

作为我们的度量标准的基础，我们使用基于感知的两两图像距离[59]（perceptually-based pairwise image distance），它由两个VGG16 embedding 之间的权重差异来进行计算，其中权重是合适的，以便该度量与人类感知判断相符。如果我们将一个潜空间插值路径细分为线性段，我们可以将路径的总感知长度定义为每个段上感知差异的总和。感知路径长度的一个自然定义是在无限细分下段的总和的极限，但在实践中，我们使用一个小细分 $ϵ=10−4\epsilon = 10^{−4}$ 来近似它。因此，在所有可能的端点上，潜空间 $Z$ 中的平均感知路径长度为

其中， $z1,z2∼P(z),t∼U(0,1)z_1,z_2 \sim P(z), t \sim U(0,1)$ ，G是生成器（也就是， $g∘fg\circ f$ 基于风格的网络）， $d(⋅,⋅)d(\cdot,\cdot)$ 求了结果图片的感知距离。这里的slerp表示球面插值，这是我们标准化输入潜空间中最合适的插值方式。为了专注于人脸特征而不是背景，我们在评估两两图像度量之前，将生成的图像裁剪为只包含人脸。因为度量d是二次的[59]，故我们除以 $ϵ2\epsilon^2$ 。我们用10万个样本来计算期望值。（意思是说，插值路径中不应该出现新特征？出现新特征，差异变大，就说明潜空间是纠缠的？就没有学到很区分开的特征？）