CycleGAN实现图像风格迁移的神作

论文链接:http://openaccess.thecvf.com/content_ICCV_2017/papers/Zhu_Unpaired_Image-To-Image_Translation_ICCV_2017_paper.pdf

在CycleGAN出现之前,pix2pix网络在处理image-image translation问题上比较state-of-the-art。但是pix2pix需要利用成对(pair)的数据进行模型训练,如下图所示:
在这里插入图片描述
成对的数据在自然界中是非常稀有的,因此pix2pix对数据的要求很高,一般而言不具备通用性。CycleGAN的出现可以解决这一问题,也就是说,CycleGAN可利用unpaired数据,在source domain XXX和target domain YYY之间建立一个映射:G:X→YG:X\rightarrow YG:XY,从而使得源域XXX的图像转化为与目标域YYY分布相似的图像。也就是说,图像G(X)G(X)G(X)无法被分辨出是从YYY中采样的还是由GGG生成的。

通过这个操作,我们就可以将自然图像转化为具有莫奈风格的图像,可以将斑马转变成普通的骏马,将冬天转变为夏天等等。也就是说,CycleGAN可以实现图像的风格迁移,更广义地来说,实现了图像间的翻译。

但是如果仅有G:X→YG:X\rightarrow YG:XY,显然是不能完成这一任务的。因为这个映射只能确保G(X)G(X)G(X)神似目标域YYY中的样本,并不能确保它与生成前的图像是对应的。举个不太恰当例子,现在的源域XXX表示“中文”,目标域YYY表示“英文”。从XXX中采样一个样本「你好吗」,经过G:X→YG:X\rightarrow YG:XY得到的G(X)G(X)G(X)理应是「How are you」。但是,由于该映射只是希望G(X)G(X)G(X)拥有目标域“英文”的特征,所以它可以是任意一句英文,如「I’m fine」。这样就失去了translation的意义。同时,GAN网络为了保证最小化Loss,宁愿所有样本的都生成同一个输出,也不会冒险去生成多样的结果,这就造成了Mode Collapse.

为了解决这个问题,CycleGAN中引入了循环一致性损失。仅仅有 G:X→YG:X\rightarrow YG:XY是不够的,还需要再引入一个映射 F:Y→XF:Y\rightarrow XF:YX,以将G(X)G(X)G(X)重新映射回源域XXX,并衡量F(G(X))F(G(X))F(G(X))

评论 3
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值