AIGC实战——Self-Attention GAN(SAGAN)详解与实现
0. 前言
自注意力 (Self-Attention) 在计算机视觉(包括分类任务)中得到了广泛采用,自注意力可以帮助我们捕获图像中的重要特征,而无需在较大的有效感受野上使用深层网络。StyleGAN 非常适合生成人脸,但要根据 ImageNet 生成图像会很困难。
从某种意义上说,人脸很容易生成,因为眼睛,鼻子和嘴唇都具有相似的形状,并且在各个面孔上的位置都相似。相比之下,ImageNet 的 1000 类图像包含各种对象(例如,狗,卡车,鱼和枕头)和背景。因此,判别器必须更有效地捕获各种物体的独特特征。这就是自注意力的用武之地了。借助条件批归一化和频谱归一化,我们将实现 Self-Attention GAN (SAGAN) 以基于给定的类别标签生成图像。
1. 频谱归一化
频谱归一化是稳定生成对抗网络 (Generative Adversarial Network, GAN) 训练的重要方法,并且已在许多 GAN 中使用。与批归一化或其他归一化激活方法不同,频谱标准化将权重归一化。频谱归一化的目的是限制权重的增长,因此网络遵守
订阅专栏 解锁全文
947





