NextStep-1：140亿参数自回归模型如何重塑AI图像生成范式-优快云博客

NextStep-1：140亿参数自回归模型如何重塑AI图像生成范式

【免费下载链接】NextStep-1-Large-Edit 项目地址: https://ai.gitcode.com/hf_mirrors/stepfun-ai/NextStep-1-Large-Edit

导语：AI绘画迎来"渐进式创作"革命

2025年8月，阶跃星辰（StepFun）团队发布的NextStep-1模型以140亿参数自回归架构+轻量级流匹配头的创新设计，在文本到图像生成领域实现自回归模型性能突破，不仅在多项权威基准测试中超越同类模型，更开创了"像人类画家一样逐步创作"的AI生成范式。

行业现状：图像生成的两种技术路线之争

当前AI图像生成领域存在明显的技术路线分化。以Stable Diffusion、MidJourney为代表的扩散模型凭借并行优化能力占据主流市场，但其"黑箱式"生成过程缺乏可控性；而自回归模型虽具有天然的序列生成优势，却因依赖离散量化（VQ）导致信息损失，或需耦合计算密集型扩散解码器，始终难以突破性能瓶颈。

行业数据显示，2024年扩散模型占据商业图像生成市场83%份额，但自回归模型在编辑精度和逻辑一致性任务上的需求缺口正以年均45%速度增长。NextStep-1的出现，恰好回应了专业创作者对"高精度可控生成"的迫切需求。

核心亮点：连续令牌与流匹配的创新融合

统一多模态框架设计

NextStep-1采用140亿参数的Transformer骨干网络，辅以1.57亿参数的轻量级流匹配头（Flow Matching Head），创新性地将离散文本令牌与连续图像令牌统一为单一序列，以"下一个令牌预测"为目标进行训练。这种设计从根本上绕开了传统自回归模型依赖的图像Tokenizer离散化步骤，完整保留视觉数据的丰富性。

NextStep-1模型架构图

如上图所示，该图展示了NextStep-1自回归图像生成模型的架构，包含Causal Transformer骨干网络、流匹配头（Flow Matching Head）、文本与图像Tokenizer及自回归生成流程，直观呈现核心组件与工作原理。这一架构极其简洁纯粹，既解放了对离散化的依赖，又摆脱了对外部大型扩散模型的"辅助"，实现了真正意义上的端到端训练。

高维隐空间稳定技术

为解决连续令牌训练的稳定性问题，团队提出两项关键技术：通道归一化（Channel-Wise Normalization）和噪声正则化。通道归一化作为稳定性的"压舱石"，有效稳定了令牌的统计特性，即使在高CFG指导强度下也能确保生成清晰、无伪影的图像；而训练Tokenizer时加入更多噪声正则化，反而显著提升了最终生成图像的质量，这一反直觉发现为构建更鲁棒的潜在空间提供了新思路。

性能解析：权威基准测试中的表现

在国际权威评测中，NextStep-1展现出全面的性能优势：

图像-文本对齐能力：GenEval测试获0.63分（启用思维链技术提升至0.73），超过Emu3（0.311）和Janus-Pro（0.267）等同类自回归模型
世界知识整合：WISE基准测试取得0.54分，在处理包含事实性描述的提示时表现接近扩散模型
复杂场景生成：DPG-Bench长文本多对象场景测试获85.28分，证明其强大的组合推理能力
编辑能力：衍生模型NextStep-1-Edit在GEdit-Bench编辑任务中达到6.58分，可精确执行物体增删、背景修改等精细化操作

特别值得注意的是，研究团队通过对比实验发现，流匹配头尺寸从400万参数增至5280万参数时，图像质量评估指标变化小于3%，证实140亿参数的Transformer主干才是生成逻辑的核心载体，流匹配头仅作为高效采样器存在。

应用前景：从内容创作到工业设计的变革

NextStep-1的技术特性为专业领域带来新可能：在游戏开发中，其逐步生成特性支持场景元素的分层设计；广告创意行业可利用精确编辑能力实现品牌元素的精准植入；工业设计领域则受益于其对空间关系的严格把控，生成符合工程规范的产品原型。

团队开源了完整代码与模型权重（仓库地址：https://gitcode.com/hf_mirrors/stepfun-ai/NextStep-1-Large-Edit），并提供简洁的部署流程，开发者可通过5行核心代码即可实现基础生成功能。这种开放策略加速了技术落地，目前已有多家内容平台测试集成该模型的渐进式创作工具。

挑战与展望

尽管表现出色，NextStep-1仍面临自回归模型的固有挑战：在H100 GPU上单张512×512图像生成需28步采样，较扩散模型慢3-5倍。团队已提出优化方向，包括流匹配头蒸馏以实现少步生成，以及借鉴LLM领域的推测解码技术加速序列生成。

随着模型迭代，我们有理由期待：未来的AI创作工具既能保持扩散模型的生成效率，又具备自回归模型的精细控制，真正实现"人机协同"的创作新范式。NextStep-1当前的探索，正为这一融合方向奠定基础。

快速上手指南

from PIL import Image
from transformers import AutoTokenizer, AutoModel
from models.gen_pipeline import NextStepPipeline
from utils.aspect_ratio import center_crop_arr_with_buckets

# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained("stepfun-ai/NextStep-1-Large-Edit", local_files_only=True)
model = AutoModel.from_pretrained("stepfun-ai/NextStep-1-Large-Edit", local_files_only=True)
pipeline = NextStepPipeline(tokenizer=tokenizer, model=model).to(device="cuda")

# 图像编辑示例
ref_image = Image.open("./input.jpg")
prompt = "<image>Add a pirate hat to the dog's head. Change the background to a stormy sea."
output = pipeline.generate_image(prompt, images=[ref_image], seed=42)[0]
output.save("./output.jpg")

提示：完整项目代码与模型权重可通过官方仓库获取，支持Python 3.11及以上环境，推荐使用16GB以上显存的GPU运行。

结语：自回归范式的再突破

NextStep-1通过连续令牌与流匹配头的创新融合，在保持自回归模型可控性优势的同时，首次实现了与顶级扩散模型的直接竞争。其开源策略不仅加速了技术普惠进程，更为学术界提供了探索连续空间自回归生成的新基准。随着多模态大模型技术的持续演进，我们或将见证两种技术路线从竞争走向融合，最终为创作者带来兼顾效率与精度的下一代AI创作工具。

如果你对该模型感兴趣，欢迎通过以下方式获取更多信息：

项目仓库：https://gitcode.com/hf_mirrors/stepfun-ai/NextStep-1-Large-Edit
技术论文：https://arxiv.org/abs/2508.10711

【免费下载链接】NextStep-1-Large-Edit 项目地址: https://ai.gitcode.com/hf_mirrors/stepfun-ai/NextStep-1-Large-Edit

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考