生成模型实战 | 自注意力生成对抗网络
0. 前言
自注意力生成对抗网络 (Self-Attention Generative Adversarial Network
, SAGAN
) 通过在传统深度卷积 GAN 中嵌入自注意力机制,有效捕捉图像中远距离的依赖关系,从而生成更具全局一致性和细节丰富的图像。SAGAN
在生成器和判别器中均引入自注意力模块,并结合谱归一化 (Spectral Normalization
)、条件批归一化 (Conditional Batch Normalization
)、投影鉴别器 (Projection Discriminator
)及铰链损失 (Hinge Loss
),显著提升了训练的稳定性与样本质量。本节将全面介绍 SAGAN
的核心原理与并使用 PyTorch
实现 SAGAN
模型。
1. SAGAN 核心原理
1.1 自注意力机制
传统卷积神经网络主要依赖局部感受野,难以捕捉图像中跨区域的全局结构信息,而深层堆叠卷积层虽具备理论潜力,但优化难度大且统计鲁棒性不足。
SAGAN
通过在特征图上计算自注意力 (<