CycleGAN实现图像风格迁移的神作

最新推荐文章于 2025-01-19 10:11:35 发布

原创

最新推荐文章于 2025-01-19 10:11:35 发布 · 8k 阅读

32 ·

CC 4.0 BY-SA版权

论文链接：http://openaccess.thecvf.com/content_ICCV_2017/papers/Zhu_Unpaired_Image-To-Image_Translation_ICCV_2017_paper.pdf

在CycleGAN出现之前，pix2pix网络在处理image-image translation问题上比较state-of-the-art。但是pix2pix需要利用成对（pair）的数据进行模型训练，如下图所示：
在这里插入图片描述
成对的数据在自然界中是非常稀有的，因此pix2pix对数据的要求很高，一般而言不具备通用性。CycleGAN的出现可以解决这一问题，也就是说，CycleGAN可利用unpaired数据，在source domain $X$ 和target domain $Y$ 之间建立一个映射： $G:X→YG:X\rightarrow Y$ ，从而使得源域 $X$ 的图像转化为与目标域 $Y$ 分布相似的图像。也就是说，图像 $G (X)$ 无法被分辨出是从 $Y$ 中采样的还是由 $G$ 生成的。

通过这个操作，我们就可以将自然图像转化为具有莫奈风格的图像，可以将斑马转变成普通的骏马，将冬天转变为夏天等等。也就是说，CycleGAN可以实现图像的风格迁移，更广义地来说，实现了图像间的翻译。

但是如果仅有 $G:X→YG:X\rightarrow Y$ ，显然是不能完成这一任务的。因为这个映射只能确保 $G (X)$ 神似目标域 $Y$ 中的样本，并不能确保它与生成前的图像是对应的。举个不太恰当例子，现在的源域 $X$ 表示“中文”，目标域 $Y$ 表示“英文”。从 $X$ 中采样一个样本「你好吗」，经过 $G:X→YG:X\rightarrow Y$ 得到的 $G (X)$ 理应是「How are you」。但是，由于该映射只是希望 $G (X)$ 拥有目标域“英文”的特征，所以它可以是任意一句英文，如「I’m fine」。这样就失去了translation的意义。同时，GAN网络为了保证最小化Loss，宁愿所有样本的都生成同一个输出，也不会冒险去生成多样的结果，这就造成了Mode Collapse.