论文VQ-GAN（Taming Transformers for High-Resolution Image Synthesis）高分辨图像生成讲解（PyTorch）

最新推荐文章于 2025-12-21 14:59:18 发布

原创最新推荐文章于 2025-12-21 14:59:18 发布 · 685 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#生成对抗网络 #pytorch #人工智能 #VQ-GAN #图像生成 #深度学习

部署运行你感兴趣的模型镜像

论文下载：https://arxiv.org/pdf/2012.09841v3.pdf

代码下载：https://github.com/CompVis/taming-transformers

大家在看这篇论文之前，请先看论文VQ-VAE详解（PyTorch），因为VQ-GAN是基于VQ-VAE方法来的。和之前一样，之所以将这篇论文主要是为后面CLIP-GEN论文打下基础，因此，建议小伙伴先看VQ-VAE和VQ-GAN，之后再去学习CLIP-GEN的时候会很快。但是对于本文里面一些知识点，感觉自己的理解并不是很好，所以较多的地方并没有去拓展讲解。

用于Transformer的图像组成部分有效词典学习

不同数据集和模型规模下的Transformer与PixelSNAIL架构

评估有效码本

FID评估模型性能

类条件合成FID分数对比

一提出目的和方法

提出目的

Transformer旨在学习序列数据中的长距离依赖关系，已在众多任务中持续展现出最先进的效果。与卷积神经网络（CNN）不同，Transformer不包含优先考虑局部交互的归纳偏置。这使得它们表达能力强，但在处理长序列（如高分辨率图像）时计算成本极高。

提出方法

将CNN的归纳偏置优势与Transformer的表达能力相结合，使其能够建模并合成高分辨率图像。具体来说，我们展示了如何（i）利用CNN学习具有丰富上下文信息的图像组成单元词汇，进而（ii）利用Transformer高效地建模它们在高分辨率图像中的组合方式。我们的方法可以直接应用于条件合成任务，其中非空间信息（如物体类别）和空间信息（如分割图）都能控制生成的图像.

首先采用卷积方法高效地学习一个富含上下文信息的视觉组成部分词典，随后学习这些组成部分的全局组合模型。这些组合中的长距离交互需要一个表达力强的Transformer架构来建模其组成视觉部分的分布。此外，采用对抗训练的方法，确保局部部分的词典能捕捉到感知上重要的局部结构，从而减轻Transformer需要处理低级统计信息的负担。通过让Transformer专注于其独特优势——建模长距离关系，使其能够生成如图1所示的高分辨率图像，这在此前是难以实现的。本文方法通过关于目标类别或空间布局的条件信息，实现了对生成图像的控制。