Title: Image-to-image translation with conditional adversarial networks
paper:pdf
Code:Pix2pix code
Abstract
研究GAN作为图像到图像翻译问题的通用解决方案。This makes it possible to apply
the same generic approach to problems that traditionally would require very different loss formulations.。本文演示了这种方法在从标签映射合成照片、从边缘映射重构对象和为图像着色等任务中是有效的。很多人通过实验也证明了它的广泛适用性和易于采用,而不需要调整参数。我们也可以在不手工设计损失函数的情况下获得合理的结果。
Introduction
基于CGAN,我们对输入图像设置条件并生成相应的输出图像。在过去的两年里,GANs得到了广泛的研究,我们在本文中探索的许多技术都已经被提出。尽管如此,早期的论文都集中在特定的应用上,目前还不清楚CGAN作为图像到图像翻译的通用解决方案的有效性。我们的主要贡献是证明,在各种各样的问题上,CGAN能产生合理的结果。我们的第二个贡献是提供一个简单的框架,足以实现良好的结果,并分析几个重要架构选择的影响。
Related Work
图像建模的结构化损失
图像到图像的翻译问题通常表示为逐像素分类或回归。这些公式将输出空间视为非结构化的,因为每个输出像素都被认为有条件地独立于给定输入图像的所有其他像素。CGAN反而学会了结构性的损失。CGAN的不同之处在于,损失是可以学习的,理论上,它可以惩罚产出和目标之间可能存在差异的任何结构。
CGAN
很多论文也将GANs用于图像到图像的映射,但只是无条件地应用GAN,依赖于其他terms(如L2回归)来强制输出以输入为条件。这些论文在inpainting[43]、未来状态预测[64]、用户约束引导下的图像处理[65]、style transfer[38]、超分辨率[36]等方面取得了令人印象深刻的成果。每一种方法都是针对特定的应用而定制的。我们的框架的不同之处在于没有什么是特定于应用程序的。这使得我们的设置比大多数其他设置要简单得多。
我们的方法在生成器和鉴别器的几个架构选择上也与以前的工作不同。与以往的工作不同,我们的生成器使用基于U-Net的架构[50],而我们的鉴别器使用卷积PatchGAN分类器,它只在图像补丁的规模上惩罚结构。以前在[38]中也提出过类似的PatchGAN体系结构来捕获本地风格的统计数据。在这里,我们展示了这种方法在更广泛的问题上是有效的,并且我们研究了改变patch大小的效果。
Method
GAN是学习从随机噪声向量z到输出图像y的映射。G:z→y。然而,CGAN是学习从观察到的图像x和随机噪声向量z到y的映射G : {x, z}→y。G训练生成的fake无法被D鉴别,再训练一个能尽力鉴别fake和real的D。如下图所示: