【论文笔记】pix2pix Image-to-Image Translation with Conditional Adversarial Networks
原文链接:https://phillipi.github.io/pix2pix/
1.工作概述
本文研究了条件对抗网络作为图像到图像风格迁移问题的通用解决方案。这些网络不仅学习从输入图像到输出图像的映射,而且学习一个损失函数来训练这种映射。这就意味着,我们可以给出一种通用的解决方案来处理那些需要不同的“损失函数”的场景。因此我们的主要贡献分成两部分:第一是证明了cGAN对风格迁移的通用性,第二是提出了一款框架去实现良好的结果。
2.项目背景
一张图片有很多种表示方式,例如:RGB、梯度场、边缘图、语义标签地图等。
GAN的目标:让我们生成的图像以假乱真(最小化损失函数),同时自动学习损失函数。
3.相关工作
结构化损失:我们将图像匹配视为“非结构化”的任务,因为像素间彼此独立,而cGAN企图处理的是结构化的损失,所以就可以用它来惩罚图像匹配任务中的“结构化”部分。
cGAN:以往有人使用cGAN,也有人用无条件的GAN并附加其它约束项(例如L2范数)去强迫输入成为输出的条件。
4.模型结构
4.1判别器
使用了PatchGAN,在Patch尺度上惩罚结构,并验证了改变补丁大小对于模型结构的影响。L1损失项可以确保低频的准确性,但会带来高频的模糊,因此判别器主要负责保证高频的准确性,这就需要我们去关注图像中的局部结构,因此我们提出了“只会在局部结构中施加惩罚项”的PatchGAN。该鉴别器试图对图像中的每个N × N块进行