2017ICCV论文阅读
Title:Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
Paper:pdf
Code:code
晕,老师让我仔细看几篇GAN论文时,看完CGAN,pix2pix,然后打开这篇CycleGan,看到排版,我就下意识看了眼作者。。果然和pix2pix同一拨人。他们写完成对的输入GAN再做个不成对的。这波操作666!!!
先声明CycleGAN 有2个G和2个D
Abstract
这篇文章提出了一种在没有成对例子的情况下,学习将图像从源域X转换为目标域Y的方法。我们的目标是学习G:X→Y。G(X)图像的分布与Y图像的分布是不可区分的。由于这个映射高度受限,作者使用一个逆映射Y→X进行二次映射,并且引入一个循环一致性损失来使得F(G(x))约等于X。在不存在成对训练数据的情况下,给出了一些定性结果,包括集合样式转换、对象变形、季节转换、照片增强等。通过与已有方法的定量比较,证明了该方法的优越性。
1. Introduction
前3段介绍了一个故事。。so想说明图像从给定场景的一种表示形式x转换为另一种表示形式y,例如,灰度到颜色,图像到语义标签,边缘映射到照片。然后作者给出假设,数据集少,不能成对输入。以及想要艺术创作,期望的输出没有明确的指定。
因此,我们寻求一种算法,可以学习跨域,而不需要成对的输入-输出示例(图2,右)。我们假设域之间存在某种潜在的关系,例如,它们是相同底层场景的两种不同呈现,并试图了解这种关系。虽然我们缺乏成对例子形式的超视觉,但我们可以在集合的层次上利用超视觉:给定X域中的一组图像和Y域中的另一组图像。要训练G:X→Y,输出一个 yˆ = G(x)且x∈X,D鉴别器要不能区分yˆ 和y。从理论上讲,这个目标可以induce出一个与经验分布P(y)相匹配的输出yˆ分布(一般来说,这要求G是随机的)[16]。因此,最优的G将域X转换为与Y分布相同的定义域Yˆ。然而,这样的翻译并不能保证单个输入x和输出y的映射以一种有意义的方式(有无穷多个映射G会在yˆ上得到相同的分布)。此外,在实践中,我们发现很难单独优化对抗性目标:标准程序常常导致众所周知的模式崩溃问题,即所有输入图像映射到相同的输出图像,而优化未能取得进展。
因此,作者利用了翻译应该循环一致的这一特性,从这个意义上说,如果我们把一个句子从英语翻译成法语,然后再把它从法语翻译成英语。应该可以回到原来的句子[3]。从数学上讲,如果我们有一个G: X→Y和另一个F: Y→X,那么G和F应该互为逆变换,而且两个映射都应该是双射。我们应用这种结构假设通过训练同时映射G和F,并添加一个周期的一致性损失( cycle consistency loss)[64]鼓励F (G (x))≈x ,和G (F (y))≈y。将这种损失与域X和域Y上的对抗性损失结合起来,就得到了我们实现非成对图像到图像翻译的完整目标。
2. Related Work
2.1Gan
介绍了下GAN就不说了。。省略。。。
2.2 Image-to-Image Translation
说图像转换工作开展很多年,重要的是这篇Paper在pix2pix的工作上开展的。不同的是不用成对的图像。
2.3 Unpaired Image-to-Image Translation
Rosales等人[42]提出了一种贝叶斯框架,该框架包括基于源图像计算的基于patch的马尔可夫随机场的先验,以及从多个样式图像中获得的似然项。
CoGAN[32]和跨模态场景网络[1]使用权重共享策略来学习跨域的公共表示。另一行并发工作[46、49、2]鼓励输入和输出共享特定的内容特性,即使它们在风格上可能不同。这些方法还使用了对抗性网络,附加了一些terms来强制输出接近预定义度量空间中的输入,比如类标签空间[2]、图像像素空间[46]和图像特征空间[49]。
与Pix2pix一样作者又给出一个通用解决方法。。。
2.4 Cycle Consistency
将传递性作为结构化数据规范化的一种方法的想法由来已久。在视觉跟踪中,强制执行简单的正反向一致性已经成为几十年来的标准技巧[24 ,48]。在语言领域,通过反向翻译和协调来验证和改进翻译是人工翻译[3]]和机器[17]使用的一种技术。近年来,高阶循环一致性被应用于结构自运动[61]、三维形状匹配[21]、共着色[55]、密集语义对齐[65,64]、深度估计[14]等。其中,Zhou等[64]和Godard等人的[14]与我们的工作最为相似,他们使用循环一致性损失作为传递性监督CNN训练的一种方式。在这项工作中,我们引入了一个类似的损失来推动G和F保持一致。与我们的工作同时,在这些相同的过程中,Yi等人受机器翻译[17]中的双重学习启发,独立地使用类似的目标进行非成对的图像对图像的翻译。
2.5 Neural Style Transfer
是将一幅图像的内容与另一幅图像(通常是一幅画)的风格相结合,通过匹配预先训练好的深度特征的Gram矩阵统计量来合成一幅新的图像。另一方面,我们主要关注的是学习两个图像集合之间的映射,而不是两个特定图像之间的映射,方法是尝试捕捉高级外观结构之间的对应关系。
3.Formulation
x i x_i