Image-to-Image Translation with Conditional Adversarial Networks 论文翻译

最新推荐文章于 2024-09-09 17:05:22 发布

原创

最新推荐文章于 2024-09-09 17:05:22 发布 · 2.5k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习深度学习图像识别

基于条件对抗网络的图像转换

源论文标题：Image-to-Image Translation with Conditional Adversarial Networks

源论文链接：https://phillipi.github.io/pix2pix/

【摘要】

我们调研了使用条件对抗网络，做为图像到图像转换的通用解决方案。这个网络不仅学习到图像到图像的映射，还学习了一个损失函数来训练这个映射。这使得之前那些需要不同损失函数的问题，采用通用方法来解决成为可能。我们证明了这种方法在用标签图合成照片，用边缘图重建物体，将黑白图像色彩化等任务上是有效的。做为一个通用方案，我们不用手动设计映射函数，不用手动设计损失函数，就能得到一个合理的结果。

计算机图像学和计算机视觉中的很多问题，可以被认为是将输入图像“翻译”成相应的输出图像。正如一个概念可以被使用英语或法语来表达，一个场景也可以被呈现为RGB图像，梯度场，边缘图，语义标签等。与语言的自动翻译类似，我们定义自动图像翻译为，在有足够的训练数据情况下，将场景的一种表示，转换成另一种可能的表示。（如图1所示，原来不同的图像转换问题，需要不同的算法。但这些问题有一个共同点，就是像素到像素的映射。基于条件对抗网络的方案，我们可以使用同样的网络架构来处理这些问题，只是需要不同的训练数据）

语言翻译困难的原因之一是，语言之间的映射很少是一对一的。类似的，图像翻译问题，可能是多对一，比如将图片映射为边缘，片段或语义标签；也可能是一对多，比如将标签，用户的稀疏输入映射为逼真图像。传统上，这些问题都是用单独的“专用设备”来解决，尽管这些“设备”有共同的“配置”：从像素到像素的预测。本文的目标是为这些问题提供一个共同的解决框架。

卷积神经网络是目前图片预测领域最主要的解决方法。虽然CNN的学习过程是自动的，但CNN需要花很大的功夫在设计有效的损失函数上。换句话说，就是我们仍然需要告诉CNN我们想要最小化的东西。就像Midas（希腊神话中的国王，拥有点石成金的能力）一样，我们必须小心我们所希望的。如果我们采用幼稚的方法，要求CNN去最小化预测像素和真实像素之间的欧几里德距离，它往往会产生模糊的结果。这是因为欧式距离通过平均所有可能的输出来达到最小化，这会导致模糊。通过损失函数来迫使CNN输出我们真正想要的东西，比如清晰，逼真的图像，是一个开放的问题，往往需要专业的知识。

如果我们只需要指定一个高层目标，比如“让输出和现实无法区分”，然后自动学习出一个适合于这个目标的损失函数，那将是非常理想的。幸运的是，这正好是最近提出的生成对抗网络（GANs）在做的事情。GAN学到了一个试图区分输出图像是真还是假的“损失”，同时训练生成模型去最小化这个“损失”。由于GAN学习到了与数据相适应的“损失”，因此可以将其应用在传统上需要不同损失函数的各种任务上。

在本文中，我们探索了有条件设置下的生成对抗网络，正如GANs学习了一个生成数据模型，条件GANs（cGANs）学习了一个有条件的生成模型。这意味着，cGANs适用与图像到图像的“翻译”任务。在这种情况下，我们接受输入图像的条件，并生成相应的输出图像。

GANs在过去两年里得到大力研究，本文中我们探索的许多技术已经被提出。尽管如此，早期的论文主要集中在特定的应用领域，如何应用到图像翻译上还是不清楚。我们的主要贡献是证明了在大量的问题上，cGANs会产生合理的结果。我们的第二个贡献是提出了一个足以取得良好结果的简单框架，并分析了选择几个重要架构的影响。

【1、相关工作】

图像模型的结构化损失

图像到图像的转换问题，通常被表述为按像素的分类或回归。这些表述将输出空间视为非结构化的，每个输出像素被认为是有条件的独立于输入图像的所有其它像素。不同的是，cGANs学习了结构化损失。结构化损失会惩罚输出中的“联合组态”。大量的文献已经考虑了这种损失，比如条件随机场，SSIM度量，特征匹配，非参数损失，卷积伪先验和基于匹配协方差统计的损失。我们条件生成对抗网络不同之处在于损失是学习到的，所以理论上可以惩罚任何的导致输出和目标有差异的结构。

有条件的生成对抗网络

我们不是第一个在有条件下应用GAN，之前的工作在离散的标签，文本，图像上也应用了cGANs，图像的条件模型已经解决了图像预测，未来帧预测和风格转移等问题。每一个这些方法都是针对性设计的，我们的不同之处在于没有任何的特定性，这使得我们的步骤简单很多。

我们的方法也不同于以前的生成器和鉴别器的结构。我们的生成器使用“u-net”架构，鉴别器使用卷积的“PatchGAN”分类器，它只会在“图片块”尺度上进行惩罚。为了获得局部的风格统计，以前也提出过类似的Patch-GAN结构。我们在这里表明了这种结构在大量问题上都是有效的，并且我们探讨了选择不同块大小带来的影响。

【2、方法】

GANs的生成模型，学习从随机噪声向量z到输出图像y的映射，G（z）-> y。相反的，条件GANs学习从被观察图像x和随机噪声向量z到y的映射，G（x，z）-> y。生成器G被训练去产生图像，这些图像和真实图像无法被鉴定器D区分出来。鉴定器D则被训练去尽可能区分出是生成器G的“造假”图像。这个训练过程如下图2。