由于博主主要研究成对的图像到图像翻译,这篇博客主要是记录一下对这篇论文所提到的不配对图像翻译+few-shot+半监督场景的理解。
整理如下:
【1】图像到图像翻译场景下的“标记图像”和分类场景下一样理解,即图像的类别,比如猫到狗的翻译,有猫、狗标签的就是标记图像。
【2】论文提到的成对图像到图像翻译参考文献:8、15、1、18、25
【3】few-shot在此并不是小样本的意思,而是测试过程中的目标图像在训练过程中并不可见,即没有出现。
摘要
在过去的几年中,不成对的图像到图像的翻译取得了显着进展。尽管最新方法能够生成逼真的图像,但它们依赖于大量标记图像。最近,一些方法解决了小样本的图像到图像转换,从而降低了推理过程中对目标域标记数据的需求。在这项工作中,我们会更进一步,并在训练期间从源域中减少所需的标记数据量。为此,我们建议通过耐噪声的伪标签步骤应用半监督学习。我们还应用了循环一致性约束,以进一步利用来自未标记图像(来自相同数据集或来自外部)的信息。此外,我们提出了几种结构上的修改,以方便在这种情况下的图像翻译任务。我们的半监督图像翻译方法称为SEMIT,它使用仅10%的源标签在四个不同的数据集上均取得了优异的结果,并且仅使用20%的标签数据即可与主要的全监督模型性能相匹配。
介绍
受益于大量的标记图像,图像到图像翻译在成对[8、15、19、42、49]和未成对图像转换[2、7、22、44、46、48]方面都取得了很大的进步。最近的研究趋势解决了早期方法的相关局限性,即多样性和可伸缩性。当前的方法[1,18,25]通过在给定输入图像的情况下生成各种转换来改善确定性模型的单样本限