ProGAN 论文精读（一）

原创

已于 2022-10-22 17:04:39 修改 · 2.3k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2022-10-20 17:27:10 首次发布

一、前期知识储备：

在这里插入图片描述

git clone https://github.com/eriklindernoren/PyTorch-GAN.git
下载后运行代码会自动下载MNIST数据集

IDE推荐使用 PyCharm 进行开发

1.该策略提出的出发点：
针对GAN网络的收敛性问题，GAN网络的目的是在高维非凸的参数空间中，找到一个价值函数的纳什均衡点使用梯度下降来优化GAN网络，只能得到较低的损失，不能找到真正的纳什均衡例如，一个网络修改x来最小化xy，另一个网络修改y来最小化-xy，使用梯度下降进行优化，结果进入一个稳定的轨道中，并不会收敛到(0,0)点作者引入了一些方法，希望提高网络的收敛性

对于DCGAN没有一个机制保证生成器需要生成不一样的数据，当模式崩溃即将发生时，判别器中许多相似点的梯度会指向一个相近的方向。计算判别器中某一层特征中，同一个batch各样本特征间的差异，来作为下一层的额外输入。这种方法能够快速的生成视觉上能够感知出明显差异的样本。
在这里插入图片描述

1.问题提出的出发点：
人工评价比如之前的是用Amazon Mechanical Turk众包平台进行人工标注，将真实图片和生成图像掺杂在一起，标注者需要逐个指出给定图像是真实的还是生成的当给标注者提供标注反馈时，结果会发生
巨大变化；通过学习这些反馈，标注者能够更好地指出生成图像中的缺陷，从而更倾向于把图像标记为生成的。
2.本文提出的方法：
提出了一种自动评估样本的方法，这个方法评估的结果与人类的评估高度相关，使用Inception模型，以生成图片x为输入，以x的推断类标签概率p(y|x)为输出，单个样本的输出分布应该为低熵，即高预测置信度，好样本应该包含明确有意义的目标物体，所有样本的输出整体分布应该为高熵，也就是说，所有的x应该尽量分属于不同的类别，而不是属于同一类别，因此，Inception score定义为
$\begin{aligned} &\exp \left(E_x K L(p(y \mid x) \| p(y))\right) \\ &\exp \left(\frac{1}{N} \sum_{i=1}^N D_{K L}\left(p\left(y \mid \mathbf{x}^{(i)}\right) \| \hat{p}(y)\right)\right) \end{aligned}$

核心要点

在这里插入图片描述

易解显性模型：定义一个方便计算的密度分布，主要的模型是Fully visible belief nets，也被称为Auto-Regressive Network
近似显性模型：可以定任意的密度分布，使用近似方法来求解

编码器：使P(z|x)逼近分布P(z)，比如标准正态分布，同时最小化生成器(解码器)和输入x的差距
解码器：最小化输出和输入x的差距，同时要骗过判别器
判别器：给真实样本高分，给重建样本和生成样本低分

JS散度（交叉熵）
$\begin{aligned} &\int_x p_g(x) f\left(\frac{p_{\text {data }}(x)}{p_g(x)}\right) d x \\ \end{aligned}$
LSGAN（MSE）损失函数
$\begin{aligned} &\mathbb{E}_{x \sim p_{\text {data }}}[\log D(x)]+\mathbb{E}_{z \sim p_z}[\log (1-D(G(z))] \\ &\frac{1}{2} \mathrm{E}_{x \sim p_{\text {data }}(x)}[D(x)-a]^2+\frac{1}{2} \mathrm{E}_{z \sim p_z(z)}[D(G(z))-b]^2 \\ \end{aligned}$