更多内容可以访问我的个人博客。
论文阅读:
DualGAN: Unsupervised Dual Learning for Image-to-Image Translation
作者将原本应用于自然语言处理领域的对偶学习应用到了图像转换领域,提出了一种通用的图像到图像转换的无监督学习框架,该框架仅依赖于未标注的图像数据。
读完这篇文章,收获是了解了对偶学习这个概念。
1. 问题定义
用于跨域图像转换的条件生成对抗性网络(GANS)最近取得了很大进展。但根据任务的复杂性,需要成千上万的标记图像对来训练条件GAN模型。然而,人工标记是昂贵的,甚至是不切实际的,大量的数据并不总是可得的。
例如,虽然有大量的照片或草图可用,但是对同一个人在相同姿势下的图片和素描对很少。再比如,将白天场景转换为夜间场景,即使使用固定的摄像机可以获得标记和匹配的图像对,场景中的移动对象也常常会导致不同程度的内容差异。
2. 解决方案
文章介绍了一种通用的图像到图像转换的无监督学习框架,该框架仅依赖于未标注的图像数据。显而易见的技术挑战是如何在没有任何数据描述正确转换的情况下对转换器进行训练。
受自然语言处理(NLP)中的对偶学习启发,在无监督的图像转换中应用对偶学习。
◆ 对偶学习:
关于对偶学习,可以看一下这篇文章:微软亚洲研究院秦涛:对偶学习的对称之美
总结来说,就是利用 AI 任务的对称属性(primal-dual)使其获得更有效的反馈/正则化,从而引导、加强学习过程(特别是在数据量少的情况下)。
对称结构不仅存在于自然界,在 AI 的任务中也广泛存在。比如:
机器翻译,有英翻中和中翻英的对称;
语音处理,需要语音转文字(语音识别),也有文本转语音(语音合成)的任务;
图像理解,图像描述(image captioning)与图像生成 (image generation)也是一个对称的过程。
对话任务:问题回答(Question answering)与问题生成(Question generation)
搜索引擎:文本匹配查询(Query-document matching)与广告关键词推荐服务(Query/keyword suggestion)
由此,本文提出了基于对偶学习的图像转换:
将两种不同的图像相互转换,比如将素描转换为一个照片(生成器 A),或是反过来,将照片转换为素描(生成器 B)。通过生成器 A 和生成器 B 的两次生成,我们希望原始素描与最后生成的素描越相似越好。或是反过来,通过生成器 B 和生成器 A 的先后两次生成,我们希望原始照片与最后生成的照片的重构误差越小越好。对偶学习和GAN相结合,可以得到很好的结果。
3. 实验设计
3.1 数据
为了评价DualGAN在通用图像转换中的效果,针对多方面的任务进行了实验,包括照片-素描转换、标签-图像转换和艺术风格转换。
为了比较DualGAN与GAN和cGAN,使用了4个数据集: PHOTO-SKETCH ,DAY-NIGHT , LABEL-FACADES , AERIAL-MAPS,这些数据集由两个域之间的对应图像组成。它们作为ground truth(GT),也可以用于监督学习。然而,这些数据集都不能保证像素级的精确特征对齐。这在一定程度上突出了获得高质量匹配图像对的困难。
还测试了两个未标记和配对的数据集MATERIAL dataset 、OIL-CHINESE painting dataset。
材料数据集最初被用于材质识别,但在本实验中用于材质转换,有石头、金属、塑料、织物和木材等材质。
油画-中国画数据集包含两种风格的画作,所有图像都是从搜索引擎中爬取的,它们包含的图像的质量、格式和大小各不相同。我们重新格式化、裁剪和调整图像了大小。
在这两个数据集中,来自不同域的图像之间没有对应关系。
3.2 实验结果
首先在四个有标记和配对的数据集上,比较DualGAN、GAN和cGAN的区别。
这三个模型都是在相同的训练数据集上进行训练,并在不与训练数据重叠的新数据上进行测试。所有的训练都是在一个GeForce GTX Titan X GPU上进行的。在这个GPU上,所有模型都运行良好,时间都不到一秒。
日景-夜景转换:
cGAN是用标记数据训练的,而DualGAN和GAN是以无监督的方式训练的。DualGAN成功地模拟了夜间场景并且保留了输入中的纹理,例如,查看DualGAN和GT在云区域上的差异。相比之下,cGAN和GAN的结果包含的细节要少得多。
标记-外观转换:
DualGAN忠实地保存标签图像中的结构,即使一些标签在更精细的细节上与相应的照片不匹配。相比之下,GAN和cGAN的结果包含许多伪影。在标签照片不对齐的区域,cGAN经常产生模糊的输出(例如,第二行的屋顶和第三排的入口)。
素描-照片转换:
DualGAN的结果通常比cGAN的结果更清晰,尽管前者使用未配对数据进行训练,而后者则使用图像对应。
照片-素描转换:
GAN和cGAN产生的结果比DualGAN显示出更多的伪影和模糊。
3.3 结果分析
与GAN相比,在几乎所有情况下,DualGAN产生的结果都较清晰,包含较少的伪影,并且更好地保存了输入的内容结构和目标域中捕获的特征(例如纹理、颜色、样式)。我们将改进归因于重构损失函数,重构损失迫使对偶生成器的输入需要根据输出进行重构,并增强了有利于目标分布编码的反馈信号。
与cGAN相比,在许多情况下,在输出的清晰度和对输入图像的准确反映性方面,DualGAN表现得更优秀。这是值得鼓舞的,因为cGAN使用了标记配对的图像对进行训练。然而,在图像和基于语义的标签之间进行转换时,例如地图-航拍图和标签-外观,通常不可能仅根据目标分布推断像素颜色和标签之间的对应关系。因此,DualGAN可能会将像素映射到错误的标签(如航拍图-地图、外观-标签),或者将标签映射到错误的颜色/纹理(地图-航拍图、标签-外观)。
4. 总结与展望
本文提出了一种新的无监督对偶学习通用图像转换框架DualGAN,DualGAN的无监督特性使许多实际应用成为可能。
实验结果表明,DualGAN机制可以显著提高GAN在各种图像到图像转换任务中的输出。只使用未标记的数据,DualGAN甚至可以产生比使用标记数据的cGAN更好的结果。
但另一方面,在某些涉及基于语义标签的任务中,cGAN要由于GualGAN。这是由于缺乏像素和标签对应信息,而这些信息不能仅从目标分布中推断。
在未来工作中,我们将研究这个缺陷是否可以通过使用少量的标记数据来去除。