昨天,谷歌大脑联合苏黎世联邦理工学院发布了一篇论文“High-Fidelity Image Generation With Fewer Labels”,谷歌的学风做派一向严谨,不仅公开发布了论文,还在github上公开了支撑论文的项目代码。
谷歌在其论文中,提出了一种新的GAN方法S3GAN。实验结果表明,S3GAN在仅用10%的标记数据前提下,在128×128的分辨率情况下,超越了当前生成图像最逼真的BigGAN达20%。FID(Frechet Inception Distance)得分上,S3GAN是8.0分,而BigGAN是8.4分,分值越低,虚假程度越逼真,越能够欺骗人类,S3GAN略微一筹。
上图为BigGAN,下图为S3GAN
1. 算法介绍
谷歌提出的S3GAN是什么?为什么是S3要说到S3GAN,首先就要解释下GAN领域中的两个前沿概念:
l自监督学习(Self-supervised learning):通过使用自监督学习算法挖掘数据集的语义信息,构建特征提取器,以获取特征表示向量,用于指导GAN的训练过程。当前自监督学习的发展主要体现在视频、图像处理领域。例如,在空间层面上包括图像补全、图像语义分割、灰度图像着色等,在时间层面上包括视频帧预测、自动驾驶等。
l半监督学习(Semi-supervised learning):在整个数据集中,标记少量样本信息,推理获得整个数据集的标记信息,用于约束GAN训练。
文中,作者首先采用半监督方法,依靠少量标记数据,通过构建分类器和损失函数,获取全部数据集的标签信息。然后使用全部的数据集和其标签信息,指导GAN训练的过程。这个过程,作者称之为S2GAN。S2的含义作者并没有在论文中明确表述,应该是Semi-supervise