无监督图像到图像转换方法学习将给定类中的图像映射到不同类中的类似图像,使用非结构化(非注册)图像数据集。虽然非常成功,但目前的方法需要在训练时访问源类和目标类中的许多图像。我们认为这极大地限制了它们的使用。从人类从少量示例中提取新对象的本质并从中进行概括的能力中汲取灵感,我们寻求一种少量镜头,无监督的图像到图像的转换算法,该算法适用于以前未见过的目标类,在测试时,仅由少量示例图像指定。我们的模型通过将对抗性训练方案与新颖的网络设计耦合起来,实现了这种少数射击生成能力。通过广泛的实验验证和与基准数据集上的几种基线方法的比较,我们验证了所提出的框架的有效性。我们的实现和数据集可在:
https://github.com/NVlabs/FUNIT
1. Introduction
人类非常擅长泛化。比方说,当给我们一张从未见过的外来动物的照片时,我们可以在脑海中形成一幅生动的画面,那是同一种动物以不同的姿势出现,尤其是当我们之前遇到过类似但不同的动物以那种姿势出现的时候。例如,一个人第一次看到站立的老虎时,考虑到他一生都在接触其他动物,他会毫不费力地想象出老虎躺着的样子。
虽然最近的无监督图像到图像转换算法在跨图像类别转移复杂的外观变化方面非常成功[30,46,29,25,55,52],但基于先验知识从新类别的少数样本