摘要
我们研究条件对抗网络的目的是将之作为一种图片到图片“翻译”问题的通用的解决方法。这些网络不仅学习了从输入图像到输出图像的映射,还学习了训练这个映射的损失函数。这使得将这个一般方法解决通常需要完全不同的损失函数公式的问题成为了可能。我们证实了这个方法在从标签图来合成图片、从边缘图来重构目标以及给图片着色问题上都很有效。作为一个共同体,我们不再需要人为构建映射函数,而且这项工作发现不用人为构造损失函数,我们也能得出合理的结果。
在图片处理、计算机图片合成和计算机视觉的许多问题都能被视作是一种从输入图片到相对应输出图片的“翻译”问题。正如一个概念能用英语或者法语表示一样,一个场景可能用RGB图像、梯度场、边缘图、一个语义标签图等等来表达。在与语言自动翻译的比喻中,我们将图片到图片的自动转化定义为在已给训练集足够的情况下,将一个场景的可能表示转化成另一个。
内容
a) 目的
:传统的图片到图片的“转化”通常需要人为构造复杂且合理的损失函数,针对不同的问题都必须采用特定的机制,虽然他们的背景都是从像素到像素的映射(pix2pix)。但是,GAN是一个不需要构建复杂损失函数的结构,它会自动学习从输入到输出图片的映射。因此,应用这个到图片“翻译”问题中,就可以实现一个泛化的模型。
b) 结果贡献
:论证了条件GAN能在广泛领域的问题中产生合理的结果;提出了一个能达到很好结果的简单框架,并且分析了重要结构的选择原因。
c) 目标函数
:这一块儿和普通的CGAN大同小异,
G网络目标是最小化目标函数,D网络目标是最大化目标函数。
这篇论文作者又考虑到将传统的损失函数也应用到整个模型,因为过去的方法证明这个很有效,但是作者没有使用L2范数而是直接使用的L1范数,即是输入输出的差值,炉温提到这样可以对高频结构进行建模。得到最终的目标函数:
d) 网络结构
:与传统的encoder-decod