Self-Attention Generative Adversarial Networks自我注意生成对抗网络
0.摘要
在本文中,我们提出了自我注意生成对抗网络(Self-Attention Generative Adversarial Network, SAGAN),该网络允许对图像生成任务进行注意力驱动的长期依赖建模。传统的卷积GANs在低分辨率特征图中仅以空间局部点为函数来生成高分辨率的细节。在SAGAN中,可以使用所有特征位置的线索来生成细节。此外,该鉴别器还可以检查图像远处部分的高细节特征是否一致。此外,最近的研究表明,生成器的条件影响GAN性能。利用这一见解,我们将光谱归一化应用于GAN生成器,并发现这改善了训练动力学。提出的SAGAN比之前的工作表现更好1,将最佳Inception score(IS)从36.8提高到52.52,并将具有挑战性的ImageNet数据集上的起始距离从27.62降低到18.65。注意层的可视化显示,生成器利用了与物体形状相对应的邻域,而不是固定形状的局部区域。
1.概述
图1所示。提出的SAGAN通过利用图像远处部分的互补特征而不是固定形状的局部区域来生成一致的目标/场景来生成图像。在每一行中,第一张图像显示了五个具有代表性的查询位置,并使用颜色编码点。其他五幅图是这些查询位置的注意力地图,用相应的颜色编码的箭头总结了最受关注的区域。
图像合成是计算机视觉中的一个重要问题。随着生成对抗网络(GANs)的出现,这一方向取得了显著的进展(Goodfellow等人,2014),尽管仍存在许多开放问题(Odena, 2019)。基于深度卷积网络的GANs (Radford et al., 2016;Karras等人,2018;Zhang等人)尤其成功。然而,通过仔细检查这些模型生成的样本,我们可以观察到卷积GANs (Odena等人,2017;Miyato等人,2018;Miyato & Koyama, 2018)在多类数据集上训练时(例如,ImageNet (Russakovsky等人,2015)),在建模某些图像类时比其他图像类要困难得多。例如,虽然最先进的ImageNet GAN模型(Miyato & Koyama, 2018)擅长在很少的结构约束下合成图像类(例如,海洋、天空和景观类,它们更多地通过纹理而不是几何来区分),但它不能捕捉在某些类中一致出现的几何或结构模式(例如,狗通常用逼真的皮毛纹理绘制,但没有明确定义的单独的脚)。一个可能的解释是,之前的模型严重依赖于卷积来建模不同图像区域之间的依赖性。由于卷积算子具有局部的接收域,因此只有经过几层卷积之后才能处理长距离依赖关系。由于各种原因,这可能会阻止了解长期依赖关系:一个小模型可能无法表示它们,优化算法可能难以发现仔细协调多层以捕获这些依赖关系的参数值,而且这些参数化在统计上可能很脆弱,当应用到以前不可见的输入时容易失败。增大卷积核的大小可以增加网络的表示容量,但同时也会失去利用局部卷积结构获得的计算和统计效率。自我注意(Cheng等人,2016;Parikh等人,2016;另一方面,V aswani等人,2017)在模拟远程依赖关系的能力与计算和统计效率之间表现出更好的平衡。自我注意模块将某一位置的响应计算为所有位置特征的加权和,其中权重(或注意向量)的计算只需要很小的计算成本。
在本研究中,我们提出了自我注意生成对抗网络(SAGANs),该网络将自我注意机制引入到卷积生成对抗网络中。自我注意模块是卷积的补充,并有助于建模的长期,多层次依赖的图像区域。有了自我关注的能力,生成器可以绘制出图像,其中每个位置的细节都与图像远处部分的细节进行了仔细的协调。此外,该鉴别器还能更准确地对全局图像结构施加复杂的几何约束
除了自我注意之外,我们还结合了最近关于网络条件反射与GAN性能的见解。Odena等人的工作(2018年)表明,条件良好的生成器往往表现得更好。我们建议使用光谱归一化技术对GAN发生器进行良好的调节,该技术此前只应用于鉴别器(Miyato等人,2018)。
我们在ImageNet数据集上进行了大量的实验,以验证所提出的自我注意机制和稳定技术的有效性。SAGAN通过将IS的最佳得分从36.8提高到52.52,并将Fréche IS距离从27.62降低到18.65,在图像合成方面显著优于之前的工作。注意层的可视化显示,生成器利用了与物体形状相对应的邻域,而不是固定形状的局部区域。
2.相关工作
2.1.GAN
GANs在各种图像生成任务中取得了巨大的成功,包括图像到图像的转换(Isola et al., 2017;Zhu等人,2017;泰格曼等人,2017;Liu和Tuzel, 2016;薛等,2018;Park等人,2019),图像超分辨率(Ledig等人,2017;Snderby等人,2017)和文本到图像合成(Reed等人,2016b;a;Zhang等人,2017;Hong et al., 2018)。尽管这一成功,众所周知,GANs的训练是不稳定的,对超参数的选择很敏感。有几项工作试图通过设计新的网络架构来稳定GAN训练动力学并提高样本多样性(Radford et al., 2016;Zhang等人,2017;Karras等人,2018;2019),修改学习目标和动态(Arjovsky等人,2017;Salimans等人,2018;梅茨等人,2017;Che等人,2017;赵等人,2017;Jolicoeur-Martineau, 2019),添加正则化方法(Gulrajani等人,2017;Miyato et al., 2018)和引入启发式技巧(Salimans et al., 2016;Odena等人,2017;Azadi等人,2018)。最近,Miyato等人(Miyato et al., 2018)提出限制鉴别器中权重矩阵的谱范数,以约束鉴别器函数的Lipschitz常数。结合基于投影的鉴别器(Miyato & Koyama, 2018),光谱归一化模型大大改善了ImageNet上的类条件图像生成。
2.2.注意力模型
最近,注意力机制已经成为必须捕获全局依赖关系的模型的组成部分(Bahdanau等人,2014;Xu等人,2015;杨等,2016;Gregor等人,2015;Chen等人,2018)。特别是自我注意(Cheng等人,2016;Parikh et al., 2016),也被称为intra-attention,通过关注同一序列中的所有位置来计算序列中某个位置的响应。V aswani等人(V aswani et al., 2017)证明,机器翻译模型仅通过使用自我注意模型就可以获得最先进的结果。Parmar等人(Parmar et al., 2018)提出了一种Image Transformer模型,将自我注意添加到自回归模型中,用于生成图像。Wang等人(Wang et al., 2018)将自我注意形式化为一种非局部操作,以建模视频序列中的时空相关性。尽管取得了这些进展,但在GANs中还没有对自我注意进行探讨。(AttnGAN (Xu et al., 2018)对输入序列中的单词嵌入使用注意,但对内部模型状态不使用自我注意)。SAGAN学习在图像的内部表征中有效地找到全局的、长期的依赖关系。