The Six Fronts of the Generative Adversarial Networks(下)

本文深入探讨了GANs中的损失函数,包括JSD的替代如Pearsonχ2、Wasserstein GAN和CramérGAN,以及如何改善图像质量和训练稳定性。此外,文章讨论了图像到图像生成转换,如pix2pix、CycleGAN和pix2pixHD,展示了如何利用编码器和鉴别器进行域转换,以及如何通过SPADE实现语义图像合成。文章还提到了评估生成图像质量的指标,如初始分数、FID和SWD。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

D、损失函數

在理解GAN训练及其不稳定性来源方面的理论进展[18]指出,詹森-香农散度(JSD)(用于GAN的公式中,用于测量实际数据分布与生成器之间的相似性)是导致梯度消失的原因 鉴别器已经受过良好训练。 这种理论上的理解有助于激发下一波工作,从而探索了JSD的替代方法。
代替JSD,作者建议使用Pearsonχ2(最小二乘GAN)[43],地球移动距离(Wasserstein GAN)[44]和Cramér距离(CramérGAN)[45]。 探索的一项核心原则是即使样本位于决策边界的正确一侧,也要对其进行惩罚,避免训练过程中梯度消失的问题。
其他引入的方法选择保持散度函数不变,并向损失函数引入分量,以提高图像质量,训练稳定性或处理模式崩溃和消失梯度。 这些方法通常可以一起使用(并具有不同的发散函数),从而证明了在不同环境下工作时调整GAN的多种可能性。
边界寻找GAN(BSGAN)[46]是展示加入不同技术可能性的一个示例,其中一个简单组件(必须针对不同的f散度函数进行调整)试图引导生成器生成样本,从而使 每个样本的鉴别器输出为0.5。
特征匹配[8]包括生成器的新损失函数组件,该函数使生成器匹配更好地描述真实数据的特征。 自然地,通过训练鉴别器,我们要求它找到这些特征,这些特征存在于中间层。 与特征匹配类似,感知损失[47]也使用来自神经网络的统计数据来比较真实样本和合成样本,并鼓励它们进行匹配。 但是不同的是,它使用ImageNet预训练网络(经常使用VGG [48]),并为损失函数增加了一个额外项。 这种技术通常用于超分辨率方法,以及图像到图像的转换[49]。
尽管有足够的计算预算,尽管独特的损失函数与用于训练网络的方法之间存在所有差异,但都可以达到可比的性能[19]。 但是,由于解决方案比以往任何时候都更加紧迫,并且GAN可能会影响多个领域,包括数据增强,图像到图像转换,超分辨率等许多方面,因此收集正确的方法以实现快速的问题解决方案至关重要。

E、图像到图像生成转换

从Yoo等人开始,在架构中添加编码器使GAN可以进行图像到图像的翻译。 [50],2016年。将编码器添加到生成器网络将其转换为编码器-解码器网络(自动编码器)。 现在,源图像首先被编码为一个潜在表示,然后由生成器映射到目标域。 鉴别器中的更改不是结构性的,但任务已更改。 除了传统的对抗性鉴别器外,作者还引入了一种域鉴别器,该域鉴别器可分析成对的源样本和目标样本(真实样本和假样本)并判断它们是否相关。
到目前为止,合成样品的质量与普通世代相同:低质量和低分辨率。 这种情况随着pix2pix [31]而改变。 Pix2pix为生成器和鉴别器采用了新的架构,以及新的损耗函数。 这是一次彻底的革命! 我们在图6中重现了参考架构的简化形式。生成器是一个类似U-Net的网络[51],其中的跳过连接允许绕过源-目标对共享的信息。 此外,作者引入了基于补丁的鉴别器(他们称为PatchGAN),以较小尺寸(通常为70×70)的补丁规模惩罚结构,同时加快了评估速度。 为了组成新的损失函数,作者建议增加一个术语,以评估合成目标和地面真实目标之间的L1距离,从而在不破坏变异性的情况下约束合成样本。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值