论文地址 论文代码 背景: 使用CLIP和GAN来完成T2I任务,一种常规的做法就是最大化输入文本与生成图像在CLIP空间上的得分,论文中把这个分数叫做,也就是最大化这两者的余弦相似度(这是CLIP的原理),可以用如下公式表达。 表示GAN的输入,一般就是高斯分布中随机采样的噪声,但是在这,作者使用的是BigGAN,他在论文中也说了,BigGAN的生成器的输入就是随机噪声和图像类别,还说了这个BigGAN是在ImageNet上训练的,包含了1000个类别。就是文本描述。 如果单纯最大化这个