Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

论文链接:Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

简介

本文提出的视觉自回归建模/VAR这种新范式,其将图像的自回归学习重新定义为从粗到细的“下一个尺度预测”或“下一个分辨率预测”,与常规的LLM预测下一个token的范式不同。VAR首次基于GPT架构的AR模型在图片生成方面超过了扩散模型,在 ImageNet 256×256 基准测试中,FID、IS分数均大幅提高,推理速度也快了将近20倍。实验证实,VAR在图像质量、推理速度、数据效率和可扩展性等多个维度由于DiT,且其具有明显的Scaling规律,在图像修复、外绘、编辑等下游任务中具有较好的泛化能力。
在这里插入图片描述

图1 不同自回归生成模型

图1中对比展示了三种自回归生成模型,(a)中是常规的基于预测下一个token范式的自回归模型/AR,GPT、LLaMa等LLM模型均是此范式;(b)中是与(a)一样,以光栅扫描将连续图片转换为离散tokens,通过预测下一个token进行图片生成的自回归模型;©中是文本提出的VAR,即从粗到细的多尺度自回归预测模型,可以看出,随着预测,图片尺度变大,内容由粗糙到精细。
VAR借鉴了人类通常以分层方式感知或创建图像的本能,即先捕捉全局信息,再处理局部细节;这种多尺度、从粗到细的顺序过程正好与自回归建模需要定义数据顺序相对应,故启发了开发人员即将图像的自回归学习定义为图1©中的“预测下一个尺度”,而不是传统的“预测下一个token”的范式。VAR中,先将图像编码为多尺度token maps,从1×1的token map开始自回归过程,逐渐扩展分辨率,即每一步Transformer基于先前所有的token maps预测下一个更高分辨率的token map。本文贡献如下:

  • 提出一种采用多尺度自回归范式并结合下一尺度预测的新型视觉生成框架,为计算机视觉领域的自回归算法设计提供了新见解;
  • 对 VAR 模型缩放定律及零样本泛化潜力的实证验证,初步模拟了大型语言模型(LLMs)的性能特性;
  • 视觉自回归模型性能的一项突破性进展,首次使 GPT 风格的自回归方法在图像合成任务中超越强大的扩散模型;
  • 一套全面的开源代码套件,涵盖 VQ 分词器和自回归模型训练流程,助力推动视觉自回归学习的发展。

预测下一个token自回归模型范式分析

此范式需要进行类似的分词操作,即先将连续的2D图片数据分割为离散的tokens,然后将其构建为1D的tokens序列。离散这一步往往是通过训练一个VQVAE模型实现,由编码器 $ E \mathcal{E} E、量化器 Q \mathcal{Q} Q、解码器 D \mathcal{D} D和码本器 Z ∈ R V × C \mathcal{Z} \in \mathbb{R}^{V \times C} ZRV×C组成。编码器将图片转换为固定尺寸的特征图 f ∈ R h × w × C f \in \mathbb{R}^{h \times w \times C} fRh×w×C,量化器将 f f f与码本中的向量进行相似度对比装起转换为离散的tokens q ∈ [ V ] h × w q \in [V]^{h \times w} q[V]h×w。此时 q q q仍是二维网格排列,还不是一维序列。图像tokens顺序必须为单向自回归学习显示定义,常规的自回归方法使用光栅扫描、螺旋扫描或Z曲线排序等策略将 q q q展平为一维序列 x = ( x 1 , ⋅ ⋅ ⋅ , x h × w ) x = (x_1,\cdot\cdot\cdot,x_{h \times w}) x=(x1,,xh×w),然后通过预测写一个token进行自回归训练。此种图片生成模型有以下不足:

  • 数学前提违规:在VQVAE中,编码器通常生成图像特征图 f f f,其中所有位置 ( i , j ) (i,j) (i,j)的特征向量 f ( i , j ) f^{(i,j)} f(i,j)存在相互依赖关系。因此,经过量化和扁平化处理后,token序列 x = ( x 1 , ⋅ ⋅ ⋅ , x h × w ) x = (x_1,\cdot\cdot\cdot,x_{h \times w}) x=(x1,,xh×w)仍保留双向相关性。这与自回归模型的单向依赖假设相矛盾 —— 该假设要求每个token x t x_t xt仅依赖于其前缀序列 ( x 1 , x 2 ⋅ ⋅ ⋅ , x t − 1 ) (x_1,x_2\cdot\cdot\cdot,x_{t-1}) (x1,x2,xt1);
  • 无法执行某些零样本泛化:与问题 1 类似,图像自回归建模的单向性限制了其在需要双向推理任务中的泛化能力。例如,给定图像的底部时,模型无法预测其顶部内容;
  • 结构退化:扁平化处理破坏了图像特征图中固有的空间局部性。例如,token q ( i , j ) q^{(i,j)} q(i,j)与其 4 个直接相邻token q ( i ± 1 , j ) q^{(i\pm1,j)} q(i±1,j) q ( i , j ± 1 ) q^{(i,j\pm1)} q(i,j±1)因空间邻近而具有紧密相关性。但这种空间关系在一维序列 x x x中被削弱 —— 单向约束会降低这些相关性;
  • 效率低下:使用传统自注意力 Transformer 生成图像token序列 x = ( x 1 , x 2 , ⋅ ⋅ ⋅ , x n × n ) x = (x_1,x_2,\cdot\cdot\cdot,x_{n \times n}) x=(x1,x2,,xn×n)时,需经历 O ( n 2 ) O(n^2) O(n2)次自回归步骤,计算成本高达 O ( n 6 ) O(n^6) O(n6)

VAR详解

VAR架构下,自回归单元是token map。VAR先将图像特征图 f ∈ R h × w × C f \in \mathbb{R}^{h \times w \times C} fRh×w×C量化为K个多尺度token映射 ( r 1 , r 2 , ⋅ ⋅ ⋅ , r K ) (r_1,r_2,\cdot\cdot\cdot,r_K) (r1,r2,,rK),每个映射的分辨率

### 自回归模型与扩散模型在可扩展图像生成中的比较 自回归模型(Autoregressive Model, ARM)和扩散模型(Diffusion Model, DM)都是当前用于图像生成的强大工具,但在某些特定场景下,ARM表现出更优的性能。以下是关于两者对比的关键点: #### 性能差异 自回归模型的核心优势在于其高效的参数化设计和较低的计算复杂度。具体来说,在大规模数据集上训练时,ARM能够利用条件概率分布逐步构建高质量图像[^1]。相比之下,尽管扩散模型以其灵活性著称,但它们通常需要更多的推理步骤来实现相似质量的结果,这显著增加了运行时间成本。 #### 可扩展性和效率 对于可扩展图像生成任务而言,ARM展现出更高的效率特性。例如,在Llama系列研究中提到的技术表明,通过优化架构设计并引入先进的注意力机制,可以有效减少内存占用同时提升处理速度。此外,《视觉自回归建模》一文中进一步探讨了如何借助“下一尺度预测”的方法增强ARM的能力,使其更适合于高分辨率图片合成需求[^2]。 #### Llama 的应用场景 基于上述理论基础之上开发出来的Llama不仅限于自然语言处理领域,在计算机视觉方向也有广泛的应用前景。特别是在跨模态学习方面,它可以通过融合文本信息指导图像创作过程;或者反过来,依据给定图形素材推测可能对应的描述语句。这种双向映射关系极大地拓宽了AI系统的表达能力边界。 ```python import torch from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama") model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama") input_text = "Generate an image of a cat." inputs = tokenizer(input_text, return_tensors="pt").to('cuda') outputs = model.generate(**inputs) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ``` 以上代码片段展示了如何使用预训练好的Llama模型来进行简单的图文转换实验。实际部署过程中还需要考虑更多细节调整以满足不同业务场景下的定制化要求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值