结合Transformer生成器与卷积判别器的混合模型研究
1. 研究背景与相关工作
生成模型的目标是用生成的数据分布近似真实数据分布。早期,图像合成的生成模型大多仅使用卷积层构建,但随着Transformer的兴起,新的拓扑结构开始打破卷积的主导地位。
1.1 基于CNN的生成模型
- 生成对抗网络(GAN) :通过优化Jensen - Shannon散度来最小化真实分布和生成分布之间的距离。从博弈论角度看,这是生成器和判别器之间的极小极大博弈。生成器旨在生成可信数据,判别器则要区分生成数据和真实数据,并惩罚生成不真实结果的生成器。
- 变分自编码器(VAE) :通过最小化两个概率分布之间的Kullback - Leibler(KL)散度来显式估计真实数据的概率密度函数。它由编码器和解码器组成,编码器将输入映射到低维潜在表示,解码器从潜在表示重建输入,训练收敛后可从预定义分布采样生成新样本。
1.2 基于注意力机制的生成模型
- Image Transformer :将Transformer推广到图像生成的序列建模中,具有可处理的似然性。
- ImageGPT :通过在图像生成任务上预训练Transformer进行无监督表示学习,学习到的表示可用于图像分类等下游任务。
- TransGAN :引入了完全无卷积、基于纯自注意力块的GAN范式。其生成器结合