【深度学习】GAN生成对抗网络

原创于 2025-11-20 20:29:55 发布 · 918 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #生成对抗网络 #人工智能 #机器学习 #算法 #神经网络 #性能优化

深度学习专栏收录该内容

4 篇文章

订阅专栏

理论篇：GAN的核心机制与数学原理

1. 核心思想：对抗博弈（Adversarial Game）

GAN由两个核心神经网络组成：

生成器（Generator, $G$ ）：目标是生成看起来与真实数据相似的假数据。它接收一个随机噪声向量 $z$ （通常从高斯分布中采样）作为输入，并将其转换为一个数据样本（例如，一张图像） $G (z)$ 。
判别器（Discriminator, $D$ ）：目标是判别输入的数据是来自真实数据集 $x$ 还是来自生成器 $G$ 生成的假样本 $G (z)$ 。它是一个二分类器，输出一个概率值，表示输入数据是真实的概率。

这两个网络在训练中相互竞争、相互促进，形成一个极小极大博弈（Minimax Game）：

$G$ 试图最小化 $D$ 识别出假数据的能力。
$D$ 试图最大化自己正确区分真实数据和假数据的能力。

最终目标是达到一个纳什均衡（Nash Equilibrium）： $G$ 强大到足以生成以假乱真的数据，使得 $D$ 无法区分真实和虚假样本（ $D$ 的输出概率近似为 $0.5$ ）。

2. 目标函数（Objective Function）

GAN的训练目标通过一个价值函数 $V (D, G)$ 来定义，这是一个典型的极小极大问题：

$min⁡Gmax⁡DV(D,G)=Ex∼pdata(x)[log⁡D(x)]+Ez∼pz(z)[log⁡(1−D(G(z)))]\min_G \max_D V(D, G) = \mathbb{E}_{x \sim p_{data}(x)}[\log D(x)] + \mathbb{E}_{z \sim p_{z}(z)}[\log (1 - D(G(z)))]$

对于判别器 $D$ 的最大化（ $max_D$ ）：
- $Ex∼pdata(x)[log⁡D(x)]\mathbb{E}_{x \sim p_{data}(x)}[\log D(x)]$ ：希望真实数据 $x$ 被 $D$ 判别为真（ $D (x)$ 趋近于 1），因此 $log⁡D(x)\log D(x)$ 趋近于 0（最大）。
- $Ez∼pz(z)[log⁡(1−D(G(z)))]\mathbb{E}_{z \sim p_{z}(z)}[\log (1 - D(G(z)))]$ ：希望假数据 $G (z)$ 被 $D$ 判别为假（ $D (G (z))$ 趋近于 0），因此 $log⁡(1−D(G(z)))\log (1 - D(G(z)))$ 趋近于 0（最大）。
- $D$ 的训练就是最小化二元交叉熵损失。
对于生成器 $G$ 的最小化（ $min_G$ ）：
- $G$ 试图让 $D$ 对其输出 $G (z)$ 的判别结果 $D (G (z))$ 趋近于 1（即欺骗 $D$ ），从而最小化 $Ez∼pz(z)[log⁡(1−D(G(z)))]\mathbb{E}_{z \sim p_{z}(z)}[\log (1 - D(G(z)))]$ 。
- 在早期训练阶段，为了提供更强的梯度，实践中 $G$ 的损失函数常被替换为 $min⁡GEz∼pz(z)[−log⁡D(G(z))]\min_G \mathbb{E}_{z \sim p_{z}(z)}[-\log D(G(z))]$ 。

🌟 3. 理论证明（最优 $D$ 与 $G$ ）

理论上，当模型收敛时，生成器 $G$ 生成的数据分布 $p_g$ 将与真实数据分布 $p_{data}$ 相等，即 $p_g = p_{data}$ 。

最优判别器 $D^*$ ：对于固定的生成器 $G$ ，最优判别器 $D^*$ 可以解析求出：
$D∗(x)=pdata(x)pdata(x)+pg(x)D^*(x) = \frac{p_{data}(x)}{p_{data}(x) + p_g(x)}$
这表明 $D^*$ 简单地根据输入数据是真实数据的概率密度与总概率密度的比值进行判别。
最优 $G$ 时的价值函数：将 $D^*(x)$ 代入 $V (D, G)$ ，可以证明此时的极小极大目标转化为最小化JS散度（Jensen-Shannon Divergence）：
$min⁡Gmax⁡DV(D,G)=min⁡G(−log⁡4+2⋅JSD(pdata∣∣pg))\min_G \max_D V(D, G) = \min_G \left( - \log 4 + 2 \cdot \text{JSD}(p_{data} || p_g) \right)$
由于 $JSD(pdata∣∣pg)≥0\text{JSD}(p_{data} || p_g) \ge 0$ ，因此当且仅当 $p_g = p_{data}$ 时， $JSD\text{JSD}$ 达到最小值 0，此时 $V(D^*, G^*)$ 达到其全局最小值 $−log⁡4-\log 4$ 。这证明了 GAN 理论上可以学习到真实数据分布。

实践篇：训练技巧与关键挑战

🛠️ 1. 训练步骤（交替优化）

在实践中，GAN的训练是一个交替优化的过程：

训练 $D$ ：
- 从真实数据集中采样 $m$ 个样本 $x(1),…,x(m)x^{(1)}, \dots, x^{(m)}$ 。
- 从噪声分布 $p_z$ 中采样 $m$ 个噪声样本 $z(1),…,z(m)z^{(1)}, \dots, z^{(m)}$ ，并生成假样本 $G(z^{(i)})$ 。
- 更新 $D$ 的参数，最大化 $V (D, G)$ 。通常会进行 $k$ 步（ $\ge 1$ ）。
训练 $G$ ：
- 从噪声分布 $p_z$ 中采样 $m$ 个新的噪声样本 $z(1),…,z(m)z^{(1)}, \dots, z^{(m)}$ 。
- 更新 $G$ 的参数，最小化 $V (D, G)$ （或 $min⁡GEz∼pz(z)[−log⁡D(G(z))]\min_G \mathbb{E}_{z \sim p_{z}(z)}[-\log D(G(z))]$ ）。通常进行 1 步。

🚨 2. 关键挑战与改进模型

原始GAN（Vanilla GAN）在实践中非常难以训练，主要有以下问题：

A. 梯度消失（Vanishing Gradients）

问题：当 $D$ 训练得太好时， $log⁡(1−D(G(z)))\log(1 - D(G(z)))$ 会趋近于 0，使得 $G$ 的梯度非常小。 $G$ 无法从 $D$ 获得有效的反馈，训练停滞。
解决方案：WGAN (Wasserstein GAN)。它使用 Wasserstein距离（Earth Mover’s distance） 代替JS散度来度量 $p_{data}$ 和 $p_g$ 之间的距离。WGAN的价值函数对分布差异更敏感，即便分布没有重叠，也能提供平滑的梯度。

B. 训练不稳定（Instability）

问题：GAN的博弈性质导致训练过程像“跷跷板”，震荡剧烈，难以收敛到纳什均衡。WGAN解决了梯度消失，但引入了权重裁剪（Weight Clipping）来强制 $D$ 满足Lipschitz连续性，这可能导致网络容量不足。
解决方案：WGAN-GP (WGAN-Gradient Penalty)。它用 梯度惩罚（Gradient Penalty） 来代替权重裁剪，这是目前最稳定、最流行的GAN训练技巧之一。它在输入空间中随机采样点 $x$ 附近惩罚梯度的模长，有效强制了Lipschitz约束。

C. 模式崩塌（Mode Collapse）

问题： $G$ 可能会发现一个能完美欺骗 $D$ 的局部模式，并只生成该模式的样本。例如，在一个生成数字图像的GAN中，它可能只生成“7”这个数字。这导致 $p_g$ 无法覆盖整个真实数据分布 $p_{data}$ ，生成的多样性极差。
解决方案：
- Unrolled GANs：在 $G$ 的损失函数中考虑 $D$ 未来几步的反应。
- Minibatch Discrimination：让 $D$ 不仅观察单个样本，还观察整个批次，以判断批次样本的多样性。
- Conditioning (cGANs)：在 $G$ 和 $D$ 中都引入额外的条件信息 $y$ ，强制 $G$ 学习条件概率 $p (x ∣ y)$ ，有助于稳定和引导生成。

🎨 3. 经典架构与应用

模型	核心特点	关键应用
DCGAN	第一个成功将CNN架构应用于GAN，使用批量归一化（Batch Normalization），抛弃池化层，使用步幅卷积/反卷积。	图像生成、特征学习。
cGAN (Conditional GAN)	引入条件信息 $y$ (如类别标签、文本描述)到 $G$ 和 $D$ 。	控制生成内容：根据文本生成图像 (如StackGAN)、根据类别生成人脸。
Pix2Pix	针对图像到图像的翻译任务，使用U-Net作为 $G$ ，PatchGAN（判别图像块）作为 $D$ ，cGAN架构。	语义分割图 $→\to$ 真实图像、黑白 $→\to$ 彩色、航拍图 $→\to$ 地图。
CycleGAN	实现非配对图像到图像的翻译（如斑马 $→\to$ 马，夏天 $→\to$ 冬天），引入循环一致性损失	风格迁移（莫奈风格）、季节转换。
StyleGAN (Nvidia)	引入Style-based生成器架构，将潜在向量 $z$ 转换为中间的Style向量 $w$ ，实现对生成图像特征的尺度级控制，生成极高分辨率的逼真人脸。	高保真图像合成（如This Person Does Not Exist）。