GAN论文学习1--- 2017CVPR Image-to-image translation with conditional adversarial networks_Pix2pix

Title: Image-to-image translation with conditional adversarial networks
paper:pdf
Code:Pix2pix code

Abstract

研究GAN作为图像到图像翻译问题的通用解决方案。This makes it possible to apply
the same generic approach to problems that traditionally would require very different loss formulations.。本文演示了这种方法在从标签映射合成照片、从边缘映射重构对象和为图像着色等任务中是有效的。很多人通过实验也证明了它的广泛适用性和易于采用,而不需要调整参数。我们也可以在不手工设计损失函数的情况下获得合理的结果。

Introduction

基于CGAN,我们对输入图像设置条件并生成相应的输出图像。在过去的两年里,GANs得到了广泛的研究,我们在本文中探索的许多技术都已经被提出。尽管如此,早期的论文都集中在特定的应用上,目前还不清楚CGAN作为图像到图像翻译的通用解决方案的有效性。我们的主要贡献是证明,在各种各样的问题上,CGAN能产生合理的结果。我们的第二个贡献是提供一个简单的框架,足以实现良好的结果,并分析几个重要架构选择的影响。

Related Work

图像建模的结构化损失

图像到图像的翻译问题通常表示为逐像素分类或回归。这些公式将输出空间视为非结构化的,因为每个输出像素都被认为有条件地独立于给定输入图像的所有其他像素。CGAN反而学会了结构性的损失。CGAN的不同之处在于,损失是可以学习的,理论上,它可以惩罚产出和目标之间可能存在差异的任何结构。

CGAN

很多论文也将GANs用于图像到图像的映射,但只是无条件地应用GAN,依赖于其他terms(如L2回归)来强制输出以输入为条件。这些论文在inpainting[43]、未来状态预测[64]、用户约束引导下的图像处理[65]、style transfer[38]、超分辨率[36]等方面取得了令人印象深刻的成果。每一种方法都是针对特定的应用而定制的。我们的框架的不同之处在于没有什么是特定于应用程序的。这使得我们的设置比大多数其他设置要简单得多。
我们的方法在生成器和鉴别器的几个架构选择上也与以前的工作不同。与以往的工作不同,我们的生成器使用基于U-Net的架构[50],而我们的鉴别器使用卷积PatchGAN分类器,它只在图像补丁的规模上惩罚结构。以前在[38]中也提出过类似的PatchGAN体系结构来捕获本地风格的统计数据。在这里,我们展示了这种方法在更广泛的问题上是有效的,并且我们研究了改变patch大小的效果。

Method

GAN是学习从随机噪声向量z到输出图像y的映射。G:z→y。然而,CGAN是学习从观察到的图像x和随机噪声向量z到y的映射G : {x, z}→y。G训练生成的fake无法被D鉴别,再训练一个能尽力鉴别fake和real的D。如下图所示:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

乘风破浪的炼丹师-Sunfine

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值