MaskGIT掩码生成图算法详解（MaskGIT: Masked Generative Image Transformer）

本文提出了一种基于双向Transformer和掩码预测的高效图像生成方法。通过掩码视觉token建模(MVTM)训练双向注意力模型，并采用迭代并行解码策略，解决了传统自回归Transformer生成效率低的问题。创新性地设计了余弦掩码调度函数和置信度筛选机制，仅需8-12步即可生成高质量图像，比自回归方法加速64倍。实验表明，该方法在ImageNet 256×256上FID降至6.18，IS提升至182.1。同时展示了该方法在图像编辑任务中的扩展性，无需修改架构即可实现类条件编辑、图像修复等任务。

现有方法局限性

提出的方法

具体方法

注：图像外推（Image Extrapolation）是一种图像生成技术，旨在从已知的图像区域推断和生成未知的外部区域，扩展图像的边界和内容。与图像补全（inpainting）通常处理内部缺失不同，外推主要关注向外扩展。

现有方法局限性

1.自回归Transformer的序列生成效率低

问题：传统生成式Transformer（如VQGAN、ImageGPT）将图像视为一维序列，按光栅扫描顺序（从左到右、逐行）逐token生成。

局限性：

生成速度慢 ：序列长度随图像分辨率平方增长（如256×256图像需256步生成），GPU生成单张图像耗时可达30秒。

非并行化 ：每一步依赖前一步结果，无法利用硬件并行加速。

方向性限制 ：仅依赖上文信息，无法利用双向上下文，导致细节生成不协调。

2.GAN模型的固有缺陷

训练不稳定与模式崩溃 ：GAN虽能生成高保真图像，但存在训练震荡和多样性不足的问题。

编辑任务扩展性差 ：GAN难以直接应用于需保留部分上下文的任务（如图像修复、外推），需额外设计复杂结构。

3. 两阶段生成框架的瓶颈

token化阶段信息损失 ：VQ-VAE等方法的离散编码可能丢失细节。

自回归先验建模效率低 ：第二阶段依赖自回归模型，生成速度成为瓶颈。

提出的方法

1.双向Transformer与掩码预测

训练阶段：采用掩码视觉token建模（MVTM），随机掩码部分token后通过双向注意力预测被掩码内容，学习全局上下文依赖。

推理阶段：提出迭代并行解码，从全掩码开始，每步并行预测所有token，仅保留高置信度结果，逐步细化生成。

2.掩码调度函数（Mask Scheduling）：

提出余弦调度函数（Concave类），在解码初期掩码率高（如95%），后期快速降低，符合“从粗到细”生成逻辑。

相比线性/凸函数，余弦调度在FID和IS指标上最优。

置信度筛选机制：每步根据预测置信度动态掩码低置信度token，避免错误累积。

3.高效性与质量提升

生成速度：仅需8–12步生成完整图像，比自回归方法加速最高64倍。

质量指标：在ImageNet 256×256上，FID降至6.18（VQGAN为15.78），IS提升至182.1。

4.多样性优势：通过CAS和Precision/Recall指标验证，生成样本覆盖更广的分布。1.

5.多任务扩展性

图像编辑任务：通过调整初始掩码区域，直接支持以下任务：

类条件编辑：替换指定区域内容并保持上下文连贯。

图像修复与外推：在Places2数据集上达到SOTA。

零任务适配：无需修改架构或额外训练，即可处理多种编辑任务。

具体方法

自回归和本文方法的生成比较

VQVAE生成图像的过程

MVTM训练流程

迭代式解码

在自回归解码中，标记是基于先前生成的输出依次生成的。由于图像标记长度（例如 256 或 1024）通常远大于语言标记长度，此过程无法并行，因而速度很慢。我们引入了一种新的解码方法，其中图像中的所有标记均可并行生成。这一点之所以可行，是因为模型具有双向自注意力机制。本文模型能够单次推断并生成整个图像。发现，由于这与训练任务存在不一致，实现起来有挑战。提出的迭代解码方法。在推理时生成图像，从一张空白画布开始，即所有标记均被遮蔽（masked out），表示为 YM(0)。对于第 t次迭代，算法运行如下：