NextStep-1:140亿参数自回归模型如何重塑AI图像生成范式
导语:AI绘画迎来"渐进式创作"革命
2025年8月,阶跃星辰(StepFun)团队发布的NextStep-1模型以140亿参数自回归架构+轻量级流匹配头的创新设计,在文本到图像生成领域实现自回归模型性能突破,不仅在多项权威基准测试中超越同类模型,更开创了"像人类画家一样逐步创作"的AI生成范式。
行业现状:图像生成的两种技术路线之争
当前AI图像生成领域存在明显的技术路线分化。以Stable Diffusion、MidJourney为代表的扩散模型凭借并行优化能力占据主流市场,但其"黑箱式"生成过程缺乏可控性;而自回归模型虽具有天然的序列生成优势,却因依赖离散量化(VQ)导致信息损失,或需耦合计算密集型扩散解码器,始终难以突破性能瓶颈。
行业数据显示,2024年扩散模型占据商业图像生成市场83%份额,但自回归模型在编辑精度和逻辑一致性任务上的需求缺口正以年均45%速度增长。NextStep-1的出现,恰好回应了专业创作者对"高精度可控生成"的迫切需求。
核心亮点:连续令牌与流匹配的创新融合
统一多模态框架设计
NextStep-1采用140亿参数的Transformer骨干网络,辅以1.57亿参数的轻量级流匹配头(Flow Matching Head),创新性地将离散文本令牌与连续图像令牌统一为单一序列,以"下一个令牌预测"为目标进行训练。这种设计从根本上绕开了传统自回归模型依赖的图像Tokenizer离散化步骤,完整保留视觉数据的丰富性。

如上图所示,该图展示了NextStep-1自回归图像生成模型的架构,包含Causal Transformer骨干网络、流匹配头(Flow Matching Head)、文本与图像Tokenizer及自回归生成流程,直观呈现核心组件与工作原理。这一架构极其简洁纯粹,既解放了对离散化的依赖,又摆脱了对外部大型扩散模型的"辅助",实现了真正意义上的端到端训练。
高维隐空间稳定技术
为解决连续令牌训练的稳定性问题,团队提出两项关键技术:通道归一化(Channel-Wise Normalization)和噪声正则化。通道归一化作为稳定性的"压舱石",有效稳定了令牌的统计特性,即使在高CFG指导强度下也能确保生成清晰、无伪影的图像;而训练Tokenizer时加入更多噪声正则化,反而显著提升了最终生成图像的质量,这一反直觉发现为构建更鲁棒的潜在空间提供了新思路。
性能解析:权威基准测试中的表现
在国际权威评测中,NextStep-1展现出全面的性能优势:
- 图像-文本对齐能力:GenEval测试获0.63分(启用思维链技术提升至0.73),超过Emu3(0.311)和Janus-Pro(0.267)等同类自回归模型
- 世界知识整合:WISE基准测试取得0.54分,在处理包含事实性描述的提示时表现接近扩散模型
- 复杂场景生成:DPG-Bench长文本多对象场景测试获85.28分,证明其强大的组合推理能力
- 编辑能力:衍生模型NextStep-1-Edit在GEdit-Bench编辑任务中达到6.58分,可精确执行物体增删、背景修改等精细化操作
特别值得注意的是,研究团队通过对比实验发现,流匹配头尺寸从400万参数增至5280万参数时,图像质量评估指标变化小于3%,证实140亿参数的Transformer主干才是生成逻辑的核心载体,流匹配头仅作为高效采样器存在。
应用前景:从内容创作到工业设计的变革
NextStep-1的技术特性为专业领域带来新可能:在游戏开发中,其逐步生成特性支持场景元素的分层设计;广告创意行业可利用精确编辑能力实现品牌元素的精准植入;工业设计领域则受益于其对空间关系的严格把控,生成符合工程规范的产品原型。
团队开源了完整代码与模型权重(仓库地址:https://gitcode.com/hf_mirrors/stepfun-ai/NextStep-1-Large-Edit),并提供简洁的部署流程,开发者可通过5行核心代码即可实现基础生成功能。这种开放策略加速了技术落地,目前已有多家内容平台测试集成该模型的渐进式创作工具。
挑战与展望
尽管表现出色,NextStep-1仍面临自回归模型的固有挑战:在H100 GPU上单张512×512图像生成需28步采样,较扩散模型慢3-5倍。团队已提出优化方向,包括流匹配头蒸馏以实现少步生成,以及借鉴LLM领域的推测解码技术加速序列生成。
随着模型迭代,我们有理由期待:未来的AI创作工具既能保持扩散模型的生成效率,又具备自回归模型的精细控制,真正实现"人机协同"的创作新范式。NextStep-1当前的探索,正为这一融合方向奠定基础。
快速上手指南
from PIL import Image
from transformers import AutoTokenizer, AutoModel
from models.gen_pipeline import NextStepPipeline
from utils.aspect_ratio import center_crop_arr_with_buckets
# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained("stepfun-ai/NextStep-1-Large-Edit", local_files_only=True)
model = AutoModel.from_pretrained("stepfun-ai/NextStep-1-Large-Edit", local_files_only=True)
pipeline = NextStepPipeline(tokenizer=tokenizer, model=model).to(device="cuda")
# 图像编辑示例
ref_image = Image.open("./input.jpg")
prompt = "<image>Add a pirate hat to the dog's head. Change the background to a stormy sea."
output = pipeline.generate_image(prompt, images=[ref_image], seed=42)[0]
output.save("./output.jpg")
提示:完整项目代码与模型权重可通过官方仓库获取,支持Python 3.11及以上环境,推荐使用16GB以上显存的GPU运行。
结语:自回归范式的再突破
NextStep-1通过连续令牌与流匹配头的创新融合,在保持自回归模型可控性优势的同时,首次实现了与顶级扩散模型的直接竞争。其开源策略不仅加速了技术普惠进程,更为学术界提供了探索连续空间自回归生成的新基准。随着多模态大模型技术的持续演进,我们或将见证两种技术路线从竞争走向融合,最终为创作者带来兼顾效率与精度的下一代AI创作工具。
如果你对该模型感兴趣,欢迎通过以下方式获取更多信息:
- 项目仓库:https://gitcode.com/hf_mirrors/stepfun-ai/NextStep-1-Large-Edit
- 技术论文:https://arxiv.org/abs/2508.10711
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



