Abstract
大多数现有的ZSL方法是visual semantic embedding的思路。本文利用GAN从文本描述中想象unseen class,从而识别unseen class。具体来说,我们提出了一个简单而有效的生成模型,该模型将unseen class(例如wikipedia文章)的文本描述(通常有噪声)作为输入,为其生成视觉特性。ZSL问题转化为传统分类问题。此外,为了保持生成特征的类间判别性,提出visual pivot regularization作为显式地监督。与以往使用复杂正则化的方法不同,我们的方法可以在不增加正则化的情况下很好地抑制噪声。
Motivation
大多数现有的ZSL方法是visual semantic embedding的思路。这种方法是从语义空间到视觉空间的一对一映射。但是,某个类别的文本描述应该映射到图像视觉空间中的一些点。例如,“a blue bird with white head”可以用来描述所有拥有蓝色身体和白色头部的鸟类。这启发我们研究,通过对抗学习增加随机性,来实现一对多映射。
本文将ZSL问题看作是想象问题,研究如何生成数据,提供类内多样性,同时保持类间判别性。生成伪数据后,直接训练监督分类器来预测unseen class的标签。

Contributions
我们的方法利用GAN从文本描述中生成unseen