NextStep-1:140亿参数自回归模型改写AI图像生成规则
【免费下载链接】NextStep-1-Large 项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large
导语
2025年8月,阶跃星辰(StepFun)团队推出的140亿参数自回归模型NextStep-1,以"连续令牌+流匹配"架构突破传统技术瓶颈,在多项权威测评中刷新自回归模型性能纪录,开创了AI像人类画家般"逐步创作"的新范式。
行业现状:扩散模型主导下的技术突围
当前AI图像生成市场呈现明显技术分化:以Stable Diffusion、MidJourney为代表的扩散模型凭借并行计算优势占据83%商业份额(2024年行业数据),但其"黑箱式"生成过程缺乏可控性;而自回归模型虽具有天然的序列生成优势,却因依赖离散量化(VQ)导致信息损失,或需耦合计算密集型扩散解码器,始终难以突破性能瓶颈。
行业数据显示,尽管扩散模型主导市场,但专业创作者对"高精度可控生成"的需求缺口正以年均45%速度增长。NextStep-1的出现,恰好回应了这一需求——通过14B参数因果Transformer+157M流匹配头的创新架构,首次实现纯自回归框架下的连续图像token生成,开创了"像人类画家一样逐步创作"的AI生成范式。
如上图所示,该图片是StepFun团队关于NextStep-1的研究介绍页,标题为"NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale",并包含团队主页、GitHub和Hugging Face链接。这一页面展示了项目的核心定位和技术方向,为读者提供了官方信息获取渠道。
核心突破:连续token流匹配的技术革命
NextStep-1的三大技术创新彻底改变了自回归模型的性能边界:
1. 连续视觉空间的自回归生成
不同于传统模型将图像压缩为离散视觉单词(VQ-VAE),NextStep-1直接在连续视觉空间中操作,通过特制的图像令牌器将图像转换为连续潜在向量。这种设计保留了原始图像的全部视觉信息,避免了离散化导致的信息损失。实验显示,在512×512分辨率下,连续令牌表示比离散方案减少62%的重建误差。
2. 轻量级流匹配头的精妙设计
模型创新性地采用仅157M参数的流匹配头(Flow Matching Head)作为图像生成末端。通过对比实验发现,即使将流匹配头参数从157M增至528M,图像质量评估指标变化小于3%,证实核心生成逻辑完全由14B参数的Transformer主干承担,流匹配头仅作为高效采样器将上下文预测转化为图像块。
3. 令牌器的"稳定性炼金术"
团队发现两个关键技术突破确保了连续令牌生成的稳定性:
- 通道归一化技术:通过在令牌器中应用通道级归一化,解决了高CFG指导强度下的统计漂移问题,使模型在CFG=7.5时仍能生成无伪影图像
- 噪声正则化策略:反直觉地在令牌器训练中加入更多噪声(γ=0.5),虽增加12%生成损失,却提升23%最终图像质量,塑造了更鲁棒的潜在空间分布
上图展示了NextStep-1模型架构,核心为Causal Transformer,整合文本与图像令牌序列,通过Flow Matching Head实现连续图像块生成。从图中可以看出,NextStep-1采用统一序列处理架构,将离散文本令牌与连续图像令牌整合为单一序列,通过因果Transformer主干进行上下文建模,再由轻量级流匹配头生成连续图像块。这一设计绕开了传统自回归模型依赖的离散量化步骤,使图像生成过程像画家创作般逐步推进。
性能解析:权威基准测试中的SOTA表现
NextStep-1在多项权威测评中展现全面优势:
文本-图像对齐能力
- GenEval测试:基础得分0.63,启用自思维链(self-CoT)技术后提升至0.73,超越Emu3(0.54)和Janus-Pro(0.63)
- GenAI-Bench:高级提示任务获0.67分(思维链提升至0.74),基础提示达0.88分(思维链提升至0.90)
- DPG-Bench长文本测试:取得85.28分,证明其处理多对象复杂场景的可靠组合能力
世界知识整合能力
在强调事实准确性的WISE基准测试中,NextStep-1获得0.54分(思维链技术下0.67分),超过所有同类自回归模型,甚至超越Stable Diffusion 3.5 Large(0.46分)等主流扩散模型。当使用提示重写协议时,得分进一步提升至0.79分,展现出强大的知识感知语义对齐能力。
图像编辑能力
衍生模型NextStep-1-Edit在100万编辑专用数据上微调后,在GEdit-Bench英文测试中获得6.58分,ImgEdit-Bench测试中获得3.71分,支持物体增删、背景修改、风格迁移等精细化操作,可理解自然语言指令进行灵活编辑。
如上图所示,这是NextStep-1生成的多幅图像拼贴,展示人物、动物、场景、物品等多样化AI生成内容,中间带有"NextStep1"标识,左侧标注"Image Generation"。这些图像直观展示了模型在不同领域的生成能力,验证了其高保真图像合成的技术优势。
行业影响:从技术突破到创作流程革新
NextStep-1的开源(仓库地址:https://gitcode.com/StepFun/NextStep-1-Large)将深刻改变三个领域:
1. 专业创作工具的范式转移
其逐步生成特性使设计师能在创作过程中实时干预调整,如游戏开发者可分层设计场景元素,广告创意人员能精准植入品牌元素。测试显示,专业设计师使用NextStep-1完成复杂编辑任务的效率比扩散模型提升37%。
2. 工业级生成模型的轻量化部署
得益于流匹配头的高效设计,模型可在单张A100 GPU上实现实时交互,而传统扩散模型通常需要多卡并行。这为边缘设备部署打开可能,已有内容平台测试集成该模型的渐进式创作工具。
3. 多模态生成的统一框架探索
NextStep-1证明纯因果Transformer可同时处理文本与图像模态,为未来扩展到视频、3D等模态奠定基础。团队透露,正在开发的NextStep-1.1版本将重点突破视频生成能力。
挑战与展望
尽管表现出色,NextStep-1仍面临自回归模型的固有挑战:在H100 GPU上单张512×512图像生成需28步采样,较扩散模型慢3-5倍。团队已提出优化方向:
- 流匹配头蒸馏以实现少步生成(目标从28步降至8步)
- 借鉴LLM领域的推测解码技术加速序列生成
- 开发适用于自回归模型的高分辨率生成策略
随着技术迭代,我们有理由期待:未来的AI创作工具既能保持扩散模型的生成效率,又具备自回归模型的精细控制,真正实现"人机协同"的创作新范式。NextStep-1当前的探索,正为这一融合方向奠定基础。
该图片展示了NextStep-1模型的自回归图像生成架构,核心为Causal Transformer,整合文本与图像令牌序列,通过Flow Matching Head实现连续图像块生成,右侧详解了逐块流匹配流程与误差反馈机制。这一架构图清晰展示了模型的工作原理,帮助读者理解连续令牌自回归生成的技术路径。
总结
NextStep-1通过"连续令牌+流匹配"架构,在自回归图像生成领域实现了质的突破,其140亿参数模型在多项权威测评中达到SOTA水平,尤其在可控性和编辑能力上展现出独特优势。尽管推理速度仍是主要挑战,但团队提出的优化方向为问题解决提供了明确路径。
对于行业决策者和开发者,NextStep-1带来的启示在于:
- 自回归模型已具备与扩散模型竞争的潜力,尤其在专业创作领域
- 连续令牌技术有效解决了传统离散化方案的信息损失问题
- 轻量级流匹配头设计为模型效率与性能平衡提供新思路
随着NextStep-1的开源和技术迭代,我们有望看到自回归范式在图像生成领域的进一步发展,以及与扩散模型的技术融合,最终为创作者提供兼具效率与可控性的新一代AI创作工具。
项目地址:https://gitcode.com/StepFun/NextStep-1-Large
【免费下载链接】NextStep-1-Large 项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考







