NextStep-1:140亿参数自回归模型改写AI图像生成规则

NextStep-1:140亿参数自回归模型改写AI图像生成规则

【免费下载链接】NextStep-1-Large 【免费下载链接】NextStep-1-Large 项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large

导语

2025年8月,阶跃星辰(StepFun)团队推出的140亿参数自回归模型NextStep-1,以"连续令牌+流匹配"架构突破传统技术瓶颈,在多项权威测评中刷新自回归模型性能纪录,开创了AI像人类画家般"逐步创作"的新范式。

行业现状:扩散模型主导下的技术突围

当前AI图像生成市场呈现明显技术分化:以Stable Diffusion、MidJourney为代表的扩散模型凭借并行计算优势占据83%商业份额(2024年行业数据),但其"黑箱式"生成过程缺乏可控性;而自回归模型虽具有天然的序列生成优势,却因依赖离散量化(VQ)导致信息损失,或需耦合计算密集型扩散解码器,始终难以突破性能瓶颈。

行业数据显示,尽管扩散模型主导市场,但专业创作者对"高精度可控生成"的需求缺口正以年均45%速度增长。NextStep-1的出现,恰好回应了这一需求——通过14B参数因果Transformer+157M流匹配头的创新架构,首次实现纯自回归框架下的连续图像token生成,开创了"像人类画家一样逐步创作"的AI生成范式。

NextStep-1研究介绍页

如上图所示,该图片是StepFun团队关于NextStep-1的研究介绍页,标题为"NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale",并包含团队主页、GitHub和Hugging Face链接。这一页面展示了项目的核心定位和技术方向,为读者提供了官方信息获取渠道。

核心突破:连续token流匹配的技术革命

NextStep-1的三大技术创新彻底改变了自回归模型的性能边界:

1. 连续视觉空间的自回归生成

不同于传统模型将图像压缩为离散视觉单词(VQ-VAE),NextStep-1直接在连续视觉空间中操作,通过特制的图像令牌器将图像转换为连续潜在向量。这种设计保留了原始图像的全部视觉信息,避免了离散化导致的信息损失。实验显示,在512×512分辨率下,连续令牌表示比离散方案减少62%的重建误差。

2. 轻量级流匹配头的精妙设计

模型创新性地采用仅157M参数的流匹配头(Flow Matching Head)作为图像生成末端。通过对比实验发现,即使将流匹配头参数从157M增至528M,图像质量评估指标变化小于3%,证实核心生成逻辑完全由14B参数的Transformer主干承担,流匹配头仅作为高效采样器将上下文预测转化为图像块。

3. 令牌器的"稳定性炼金术"

团队发现两个关键技术突破确保了连续令牌生成的稳定性:

  • 通道归一化技术:通过在令牌器中应用通道级归一化,解决了高CFG指导强度下的统计漂移问题,使模型在CFG=7.5时仍能生成无伪影图像
  • 噪声正则化策略:反直觉地在令牌器训练中加入更多噪声(γ=0.5),虽增加12%生成损失,却提升23%最终图像质量,塑造了更鲁棒的潜在空间分布

NextStep-1架构图

上图展示了NextStep-1模型架构,核心为Causal Transformer,整合文本与图像令牌序列,通过Flow Matching Head实现连续图像块生成。从图中可以看出,NextStep-1采用统一序列处理架构,将离散文本令牌与连续图像令牌整合为单一序列,通过因果Transformer主干进行上下文建模,再由轻量级流匹配头生成连续图像块。这一设计绕开了传统自回归模型依赖的离散量化步骤,使图像生成过程像画家创作般逐步推进。

性能解析:权威基准测试中的SOTA表现

NextStep-1在多项权威测评中展现全面优势:

文本-图像对齐能力

  • GenEval测试:基础得分0.63,启用自思维链(self-CoT)技术后提升至0.73,超越Emu3(0.54)和Janus-Pro(0.63)
  • GenAI-Bench:高级提示任务获0.67分(思维链提升至0.74),基础提示达0.88分(思维链提升至0.90)
  • DPG-Bench长文本测试:取得85.28分,证明其处理多对象复杂场景的可靠组合能力

世界知识整合能力

在强调事实准确性的WISE基准测试中,NextStep-1获得0.54分(思维链技术下0.67分),超过所有同类自回归模型,甚至超越Stable Diffusion 3.5 Large(0.46分)等主流扩散模型。当使用提示重写协议时,得分进一步提升至0.79分,展现出强大的知识感知语义对齐能力。

图像编辑能力

衍生模型NextStep-1-Edit在100万编辑专用数据上微调后,在GEdit-Bench英文测试中获得6.58分,ImgEdit-Bench测试中获得3.71分,支持物体增删、背景修改、风格迁移等精细化操作,可理解自然语言指令进行灵活编辑。

NextStep-1生成的多幅图像拼贴

如上图所示,这是NextStep-1生成的多幅图像拼贴,展示人物、动物、场景、物品等多样化AI生成内容,中间带有"NextStep1"标识,左侧标注"Image Generation"。这些图像直观展示了模型在不同领域的生成能力,验证了其高保真图像合成的技术优势。

行业影响:从技术突破到创作流程革新

NextStep-1的开源(仓库地址:https://gitcode.com/StepFun/NextStep-1-Large)将深刻改变三个领域:

1. 专业创作工具的范式转移

其逐步生成特性使设计师能在创作过程中实时干预调整,如游戏开发者可分层设计场景元素,广告创意人员能精准植入品牌元素。测试显示,专业设计师使用NextStep-1完成复杂编辑任务的效率比扩散模型提升37%。

2. 工业级生成模型的轻量化部署

得益于流匹配头的高效设计,模型可在单张A100 GPU上实现实时交互,而传统扩散模型通常需要多卡并行。这为边缘设备部署打开可能,已有内容平台测试集成该模型的渐进式创作工具。

3. 多模态生成的统一框架探索

NextStep-1证明纯因果Transformer可同时处理文本与图像模态,为未来扩展到视频、3D等模态奠定基础。团队透露,正在开发的NextStep-1.1版本将重点突破视频生成能力。

挑战与展望

尽管表现出色,NextStep-1仍面临自回归模型的固有挑战:在H100 GPU上单张512×512图像生成需28步采样,较扩散模型慢3-5倍。团队已提出优化方向:

  • 流匹配头蒸馏以实现少步生成(目标从28步降至8步)
  • 借鉴LLM领域的推测解码技术加速序列生成
  • 开发适用于自回归模型的高分辨率生成策略

随着技术迭代,我们有理由期待:未来的AI创作工具既能保持扩散模型的生成效率,又具备自回归模型的精细控制,真正实现"人机协同"的创作新范式。NextStep-1当前的探索,正为这一融合方向奠定基础。

NextStep-1自回归图像生成架构

该图片展示了NextStep-1模型的自回归图像生成架构,核心为Causal Transformer,整合文本与图像令牌序列,通过Flow Matching Head实现连续图像块生成,右侧详解了逐块流匹配流程与误差反馈机制。这一架构图清晰展示了模型的工作原理,帮助读者理解连续令牌自回归生成的技术路径。

总结

NextStep-1通过"连续令牌+流匹配"架构,在自回归图像生成领域实现了质的突破,其140亿参数模型在多项权威测评中达到SOTA水平,尤其在可控性和编辑能力上展现出独特优势。尽管推理速度仍是主要挑战,但团队提出的优化方向为问题解决提供了明确路径。

对于行业决策者和开发者,NextStep-1带来的启示在于:

  1. 自回归模型已具备与扩散模型竞争的潜力,尤其在专业创作领域
  2. 连续令牌技术有效解决了传统离散化方案的信息损失问题
  3. 轻量级流匹配头设计为模型效率与性能平衡提供新思路

随着NextStep-1的开源和技术迭代,我们有望看到自回归范式在图像生成领域的进一步发展,以及与扩散模型的技术融合,最终为创作者提供兼具效率与可控性的新一代AI创作工具。

项目地址:https://gitcode.com/StepFun/NextStep-1-Large

【免费下载链接】NextStep-1-Large 【免费下载链接】NextStep-1-Large 项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值