论文阅读笔记——Autoregressive Image Generation without Vector Quantization

寻丶幽风

于 2025-07-03 22:14:12 发布

阅读量548

点赞数 11

CC 4.0 BY-SA版权

分类专栏：论文阅读笔记文章标签：论文阅读笔记自回归扩散模型大模型人工智能

本文链接：https://blog.youkuaiyun.com/Multiple_x/article/details/149103804

论文阅读笔记专栏收录该内容

48 篇文章

订阅专栏

MAR 论文
基于 VQ（向量量化）的图像生成方法具有显著优势，它通过离散化压缩将原始图像映射到有限的 codebook 空间，从而缩小学习范围、降低建模难度，同时这种离散表示更易于与自回归（AG）生成方式结合，提升多模态任务（如文本到图像生成）的融合能力；然而，该方法也存在明显局限性，包括训练难度较高（容易导致codebook利用率不足，仅部分编码参与计算，严重制约模型表达能力）、解码重建质量欠佳等问题，其根本原因在于VQ本质上是一种有损压缩方式，不可避免会丢失部分信息。
在这里插入图片描述
本文的核心创新点在于彻底摒弃了传统VQ（向量量化）方法，直接进行自回归图像生成。作者提出关键观点：在自回归学习框架下，预测下一个 token x 时，离散化表征并非必要条件——若允许 x 保持连续性，则 VQ 机制自然失去存在价值。为实现这一目标，论文创新性地采用扩散模型（diffusion）的损失函数替代传统的交叉熵损失，从而将x建模为连续概率分布而非离散符号。这一转变不仅绕过了 VQ 带来的信息损失问题，更通过连续空间的建模提升了生成质量。
在这里插入图片描述
当前主流的大语言模型（LLM）普遍采用单向Causal Attention机制，这确实符合语言生成的序列特性（当前词只依赖历史信息）。然而，在图像生成领域，双向Attention可能更具优势——与语言中词与词的线性依赖不同，图像中的像素或patch往往与其周围区域存在空间上的相互影响。通过双向Attention建模这种全局上下文关系，理论上可以更自然地捕捉图像的空间结构特征，同时仍能保持自回归生成的特性（通过适当的掩码机制实现）。这种改进既保留了自回归的序列生成优势，又弥补了单向Attention对图像空间关系建模的不足。

传统的自回归图像生成通常采用固定的序列顺序（如从左到右、从上到下逐行生成图像块），如图(a)所示。然而，本文提出这种固定顺序的生成方式并非最优解。受掩码语言模型（MLM）的启发，论文创新性地提出 掩码自回归（Masked Autoregressive, MAR） 方法——如图(b)所示，模型可以随机选择生成任意位置的图像块，而无需遵循预设顺序。这种灵活生成方式带来两个关键优势：首先，它突破了传统自回归模型的顺序限制，使生成过程更符合图像的空间特性；其次，如图©所示，MAR支持同时预测多个被掩码的图像块，从而显著提升解码速度。这一设计在保持自回归建模优势的同时，实现了更高效的并行化生成。

实验

在这里插入图片描述
（1）在自回归中，用diff loss代替 CE loss，效果都是有提升，说明了diff loss的有效；
（2）在AR下（第一行），diff loss相比 CE loss提升的并不明显，当切换成论文提出的MAR形式，这个提升优势就愈加明显。
（3）在MAR_default（masked AR，就是上述©图形式）下，表现最好，而且即是是CE loss，也是相比之前的变体，也是又很明显的提升，说明masked AR在图像任务的有效性。