GAN及其变体CGAN、WGAN

本文详细介绍了生成式对抗网络(GAN)、条件生成式对抗网络(CGAN)、 Wasserstein GAN(WGAN)以及Wasserstein GAN with Gradient Penalty(WGAN-GP)。内容涵盖了各个模型的基本原理、优化过程以及它们之间的区别,旨在揭示这些技术在无监督和有监督学习中的应用和改进。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

生成式对抗网络GAN(无监督)

GAN由Goodfellow在2014年提出,启发自博弈论中的二人零和博弈。由一个生成模型G和一个判别模型D组成。生成模型捕捉样本数据的分布,判别模型是一个二分类器,判别输入的数据是真实数据还是生成的数据。G和D一般都是非线性映射函数,例如多层感知器、卷积神经网络等。

生成模型输入的是一个服从某一简单分布(高斯分布)的噪声变量z,输出的是与训练图像相同尺寸的伪图像;
判别模型输入的是真实图像和伪图像,输出的是一个置信度(概率值0-1),表示判别输入中伪图像是真实图像的概率
对于生成模型G来说要尽可能的欺骗D,使D输出高概率(误判为真实样本);对D来说要尽可能输出低概率,从而形成对抗。

GAN的优化过程是一个“二元极小极大博弈”问题:
GAN
作者后来又提出一个改进版本,即: log D(x)-log(D(G(z)))

固定模型G,训练网络D使得最大概率的分对训练样本的标签,即最大化 log D(x)+log(1-D(G(z)))
固定网络D,训练网络G使得最小化 log(1-D(G(z))),即最大化D的损失
D和G同时训练,训练时固定一方,更新另一方的网络参数,交替迭代,使得对方的错误最大化,最终,G能估计出样本数据的分布。

条件生成式对抗网络CGAN(有监督)

  • 起源
    原始GAN的输入是一个符合高斯分布的数据,通过生成网络和对抗网络交替式训练,从而在理论上达到逼近真实数据的效果。然而,这种不需要预先建模的方式太过自由,对于像素较多的情形,原始的GAN就无法解决问题。很自然的想到给原始输入加入一些约束,这就便有了CGAN(Conditional Generator Adversarial Nets)

  • 不同

### 生成对抗网络 (GAN) 的各种变体及其最新进展 #### 条件生成对抗网络 (Conditional GANs, cGAN) 条件生成对抗网络扩展了标准 GAN 架构,在输入到生成器和判别器的数据中加入了额外的信息,如类别标签或其他模态的数据。这使得模型能够根据给定条件生成特定类型的图像或数据[^1]。 ```python import torch.nn as nn class ConditionalGenerator(nn.Module): def __init__(self, input_dim, condition_dim, output_dim): super().__init__() self.model = nn.Sequential( nn.Linear(input_dim + condition_dim, 256), nn.ReLU(), ... nn.Tanh() ) def forward(self, noise, conditions): gen_input = torch.cat((noise, conditions), dim=1) return self.model(gen_input) ``` #### 边界寻求生成对抗网络 (Boundary Seeking GAN, BGAN) BGAN 提出了一个新的目标函数来减少生成样本的质量差异,使生成器更关注于那些接近真实数据分布边界的样本。这种方法有助于提高生成图片的真实性和多样性[^3]。 #### 虚假损失最小化生成对抗网络 (Least Squares GAN, LSGAN) LSGAN 使用平方误差作为损失函数代替传统的交叉熵损失,旨在让生成器产生的样本尽可能靠近真实的平均值而不是仅仅试图欺骗判别器。这种变化可以改善训练稳定性并获得更好的视觉效果。 #### 对抗自动编码器 (Adversarial Autoencoders, AAE) AAE 结合了自编码器的思想 GAN 的结构,其中编码部分用于映射高维观测空间至低维潜在变量空间;解码/生成过程则负责重建原始输入或创建相似的新实例。该架构不仅可用于降噪、去模糊等任务,还支持无监督表示学习。 #### Wasserstein GAN (WGAN) 为了克服传统 GAN 训练过程中存在的模式崩溃问题以及梯度消失现象,Wasserstein GAN 引入了 Earth Mover's Distance(EMD),即 Wasserstein distance 或 Kantorovich-Rubinstein norm,作为一种衡量两概率分布之间距离的方式。相比 Kullback-Leibler divergence 和 Jensen-Shannon divergence 更加平滑连续,有利于稳定收敛性能提升[^2]。 #### BigGAN BigGAN 是一种大规模多尺度卷积神经网路构成的大规模图像合成系统,利用谱归一化技术防止过拟合并增强泛化能力。此外,BigGAN 还引入了截断技巧以控制生成质量多样性的平衡关系,成为当前最先进水平之一的图像生成算法
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值