NextStep-1：140亿参数自回归模型改写AI图像生成规则-优快云博客

NextStep-1：140亿参数自回归模型改写AI图像生成规则

【免费下载链接】NextStep-1-Large 项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large

导语

2025年8月，阶跃星辰（StepFun）团队推出的140亿参数自回归模型NextStep-1，以"连续令牌+流匹配"架构突破传统技术瓶颈，在多项权威测评中刷新自回归模型性能纪录，开创了AI像人类画家般"逐步创作"的新范式。

行业现状：扩散模型主导下的技术突围

当前AI图像生成市场呈现明显技术分化：以Stable Diffusion、MidJourney为代表的扩散模型凭借并行计算优势占据83%商业份额（2024年行业数据），但其"黑箱式"生成过程缺乏可控性；而自回归模型虽具有天然的序列生成优势，却因依赖离散量化（VQ）导致信息损失，或需耦合计算密集型扩散解码器，始终难以突破性能瓶颈。

行业数据显示，尽管扩散模型主导市场，但专业创作者对"高精度可控生成"的需求缺口正以年均45%速度增长。NextStep-1的出现，恰好回应了这一需求——通过14B参数因果Transformer+157M流匹配头的创新架构，首次实现纯自回归框架下的连续图像token生成，开创了"像人类画家一样逐步创作"的AI生成范式。

如上图所示，该图片是StepFun团队关于NextStep-1的研究介绍页，标题为"NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale"，并包含团队主页、GitHub和Hugging Face链接。这一页面展示了项目的核心定位和技术方向，为读者提供了官方信息获取渠道。

核心突破：连续token流匹配的技术革命

NextStep-1的三大技术创新彻底改变了自回归模型的性能边界：

1. 连续视觉空间的自回归生成

不同于传统模型将图像压缩为离散视觉单词（VQ-VAE），NextStep-1直接在连续视觉空间中操作，通过特制的图像令牌器将图像转换为连续潜在向量。这种设计保留了原始图像的全部视觉信息，避免了离散化导致的信息损失。实验显示，在512×512分辨率下，连续令牌表示比离散方案减少62%的重建误差。

2. 轻量级流匹配头的精妙设计

模型创新性地采用仅157M参数的流匹配头（Flow Matching Head）作为图像生成末端。通过对比实验发现，即使将流匹配头参数从157M增至528M，图像质量评估指标变化小于3%，证实核心生成逻辑完全由14B参数的Transformer主干承担，流匹配头仅作为高效采样器将上下文预测转化为图像块。

3. 令牌器的"稳定性炼金术"

团队发现两个关键技术突破确保了连续令牌生成的稳定性：

通道归一化技术：通过在令牌器中应用通道级归一化，解决了高CFG指导强度下的统计漂移问题，使模型在CFG=7.5时仍能生成无伪影图像
噪声正则化策略：反直觉地在令牌器训练中加入更多噪声（γ=0.5），虽增加12%生成损失，却提升23%最终图像质量，塑造了更鲁棒的潜在空间分布

上图展示了NextStep-1模型架构，核心为Causal Transformer，整合文本与图像令牌序列，通过Flow Matching Head实现连续图像块生成。从图中可以看出，NextStep-1采用统一序列处理架构，将离散文本令牌与连续图像令牌整合为单一序列，通过因果Transformer主干进行上下文建模，再由轻量级流匹配头生成连续图像块。这一设计绕开了传统自回归模型依赖的离散量化步骤，使图像生成过程像画家创作般逐步推进。

性能解析：权威基准测试中的SOTA表现

NextStep-1在多项权威测评中展现全面优势：

文本-图像对齐能力

GenEval测试：基础得分0.63，启用自思维链（self-CoT）技术后提升至0.73，超越Emu3（0.54）和Janus-Pro（0.63）
GenAI-Bench：高级提示任务获0.67分（思维链提升至0.74），基础提示达0.88分（思维链提升至0.90）
DPG-Bench长文本测试：取得85.28分，证明其处理多对象复杂场景的可靠组合能力

世界知识整合能力

在强调事实准确性的WISE基准测试中，NextStep-1获得0.54分（思维链技术下0.67分），超过所有同类自回归模型，甚至超越Stable Diffusion 3.5 Large（0.46分）等主流扩散模型。当使用提示重写协议时，得分进一步提升至0.79分，展现出强大的知识感知语义对齐能力。

图像编辑能力

衍生模型NextStep-1-Edit在100万编辑专用数据上微调后，在GEdit-Bench英文测试中获得6.58分，ImgEdit-Bench测试中获得3.71分，支持物体增删、背景修改、风格迁移等精细化操作，可理解自然语言指令进行灵活编辑。

如上图所示，这是NextStep-1生成的多幅图像拼贴，展示人物、动物、场景、物品等多样化AI生成内容，中间带有"NextStep1"标识，左侧标注"Image Generation"。这些图像直观展示了模型在不同领域的生成能力，验证了其高保真图像合成的技术优势。

行业影响：从技术突破到创作流程革新

NextStep-1的开源（仓库地址：https://gitcode.com/StepFun/NextStep-1-Large）将深刻改变三个领域：

1. 专业创作工具的范式转移

其逐步生成特性使设计师能在创作过程中实时干预调整，如游戏开发者可分层设计场景元素，广告创意人员能精准植入品牌元素。测试显示，专业设计师使用NextStep-1完成复杂编辑任务的效率比扩散模型提升37%。

2. 工业级生成模型的轻量化部署

得益于流匹配头的高效设计，模型可在单张A100 GPU上实现实时交互，而传统扩散模型通常需要多卡并行。这为边缘设备部署打开可能，已有内容平台测试集成该模型的渐进式创作工具。

3. 多模态生成的统一框架探索

NextStep-1证明纯因果Transformer可同时处理文本与图像模态，为未来扩展到视频、3D等模态奠定基础。团队透露，正在开发的NextStep-1.1版本将重点突破视频生成能力。

挑战与展望

尽管表现出色，NextStep-1仍面临自回归模型的固有挑战：在H100 GPU上单张512×512图像生成需28步采样，较扩散模型慢3-5倍。团队已提出优化方向：

流匹配头蒸馏以实现少步生成（目标从28步降至8步）
借鉴LLM领域的推测解码技术加速序列生成
开发适用于自回归模型的高分辨率生成策略

随着技术迭代，我们有理由期待：未来的AI创作工具既能保持扩散模型的生成效率，又具备自回归模型的精细控制，真正实现"人机协同"的创作新范式。NextStep-1当前的探索，正为这一融合方向奠定基础。

该图片展示了NextStep-1模型的自回归图像生成架构，核心为Causal Transformer，整合文本与图像令牌序列，通过Flow Matching Head实现连续图像块生成，右侧详解了逐块流匹配流程与误差反馈机制。这一架构图清晰展示了模型的工作原理，帮助读者理解连续令牌自回归生成的技术路径。

总结

NextStep-1通过"连续令牌+流匹配"架构，在自回归图像生成领域实现了质的突破，其140亿参数模型在多项权威测评中达到SOTA水平，尤其在可控性和编辑能力上展现出独特优势。尽管推理速度仍是主要挑战，但团队提出的优化方向为问题解决提供了明确路径。

对于行业决策者和开发者，NextStep-1带来的启示在于：

自回归模型已具备与扩散模型竞争的潜力，尤其在专业创作领域
连续令牌技术有效解决了传统离散化方案的信息损失问题
轻量级流匹配头设计为模型效率与性能平衡提供新思路

随着NextStep-1的开源和技术迭代，我们有望看到自回归范式在图像生成领域的进一步发展，以及与扩散模型的技术融合，最终为创作者提供兼具效率与可控性的新一代AI创作工具。

项目地址：https://gitcode.com/StepFun/NextStep-1-Large

【免费下载链接】NextStep-1-Large 项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考