论文链接:http://openaccess.thecvf.com/content_ICCV_2017/papers/Zhu_Unpaired_Image-To-Image_Translation_ICCV_2017_paper.pdf
在CycleGAN出现之前,pix2pix网络在处理image-image translation问题上比较state-of-the-art。但是pix2pix需要利用成对(pair)的数据进行模型训练,如下图所示:

成对的数据在自然界中是非常稀有的,因此pix2pix对数据的要求很高,一般而言不具备通用性。CycleGAN的出现可以解决这一问题,也就是说,CycleGAN可利用unpaired数据,在source domain XXX和target domain YYY之间建立一个映射:G:X→YG:X\rightarrow YG:X→Y,从而使得源域XXX的图像转化为与目标域YYY分布相似的图像。也就是说,图像G(X)G(X)G(X)无法被分辨出是从YYY中采样的还是由GGG生成的。
通过这个操作,我们就可以将自然图像转化为具有莫奈风格的图像,可以将斑马转变成普通的骏马,将冬天转变为夏天等等。也就是说,CycleGAN可以实现图像的风格迁移,更广义地来说,实现了图像间的翻译。
但是如果仅有G:X→YG:X\rightarrow YG:X→Y,显然是不能完成这一任务的。因为这个映射只能确保G(X)G(X)G(X)神似目标域YYY中的样本,并不能确保它与生成前的图像是对应的。举个不太恰当例子,现在的源域XXX表示“中文”,目标域YYY表示“英文”。从XXX中采样一个样本「你好吗」,经过G:X→YG:X\rightarrow YG:X→Y得到的G(X)G(X)G(X)理应是「How are you」。但是,由于该映射只是希望G(X)G(X)G(X)拥有目标域“英文”的特征,所以它可以是任意一句英文,如「I’m fine」。这样就失去了translation的意义。同时,GAN网络为了保证最小化Loss,宁愿所有样本的都生成同一个输出,也不会冒险去生成多样的结果,这就造成了Mode Collapse.
为了解决这个问题,CycleGAN中引入了循环一致性损失。仅仅有 G:X→YG:X\rightarrow YG:X→Y是不够的,还需要再引入一个映射 F:Y→XF:Y\rightarrow XF:Y→X,以将G(X)G(X)G(X)重新映射回源域XXX,并衡量F(G(X))F(G(X))F(G(X))与

最低0.47元/天 解锁文章
2355





