NextStep-1震撼发布:140亿参数自回归模型改写AI图像生成规则

NextStep-1震撼发布:140亿参数自回归模型改写AI图像生成规则

【免费下载链接】NextStep-1-Large-Pretrain 【免费下载链接】NextStep-1-Large-Pretrain 项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large-Pretrain

导语

2025年8月,阶跃星辰(StepFun)团队推出的NextStep-1模型以"连续令牌+自回归"的创新架构,在文本到图像生成领域实现突破,开创了无需离散量化即可生成高保真图像的新范式。

行业现状:扩散模型主导下的技术突围

当前AI图像生成市场呈现明显技术分化:以Stable Diffusion、MidJourney为代表的扩散模型凭借并行计算优势占据83%商业份额(2024年行业数据),但其"黑箱式"生成过程难以满足高精度编辑需求。与此同时,自回归模型虽具备天然的序列生成逻辑,却因依赖向量量化(VQ)导致信息损失,或需耦合计算密集型扩散解码器,始终未能突破性能瓶颈。

行业调研显示,专业创作者对"可控性优先"工具的需求正以年均45%速度增长,尤其在游戏开发、广告创意和工业设计领域,对物体层级关系、空间逻辑一致性的要求远超现有扩散模型能力范围。NextStep-1的出现,恰好填补了这一市场空白。

NextStep-1模型架构图

如上图所示,NextStep-1的整体架构以因果Transformer(Causal Transformer)为核心,结合文本和图像tokenizer处理输入,通过流匹配头(Flow Matching Head)实现自回归图像生成,并在右侧详细展示了Patch-Wise Flow Matching的流程。这一架构极其简洁纯粹,既解放了对离散化的依赖,又摆脱了对外部大型扩散模型的"辅助",实现了真正意义上的端到端训练。

核心亮点:连续令牌与流匹配的技术革命

统一多模态框架设计

NextStep-1采用140亿参数的Transformer骨干网络,辅以1.57亿参数的轻量级流匹配头(Flow Matching Head),创新性地将离散文本令牌与连续图像令牌统一为单一序列,以"下一个令牌预测"为目标进行训练。这种设计从根本上绕开了传统自回归模型依赖的图像Tokenizer离散化步骤,完整保留视觉数据的丰富性。

连续令牌生成技术

团队摒弃传统VQ离散化步骤,采用特制自编码器将图像转换为连续潜变量令牌,配合通道归一化技术稳定高CFG(Classifier-Free Guidance)强度下的生成过程。实验数据显示,即使将CFG值提升至常规模型的2倍,NextStep-1仍能保持图像清晰度,伪影率降低72%。

轻量级流匹配头设计

157M参数的流匹配头仅作为采样器存在,模型99%的生成逻辑由Transformer骨干网络主导。对比实验证实:当流匹配头参数从40M增至528M时,图像质量评估指标变化小于3%,印证了Transformer在视觉推理中的核心作用。

NextStep-1技术架构细节

该图展示了NextStep-1模型架构的更多细节,包含文本分词器、因果Transformer和流匹配头,用于文本到图像生成,结合文本与图像标记器,通过逐块流匹配实现图像生成的精准性。从图中可以清晰看到模型如何处理离散文本和连续图像令牌,以及流匹配头如何工作以生成连续图像块。

噪声正则化训练策略

反直觉的是,团队在令牌器训练中主动引入更多噪声,虽使重构误差增加15%,却让最终生成图像的FID(Fréchet Inception Distance)分数提升9.3%。这种"以退为进"的策略构建了更鲁棒的潜在空间,使自回归模型学习更高效。

性能解析:权威基准测试中的SOTA表现

在国际权威评测中,NextStep-1展现出全面的性能优势:

  • 图像-文本对齐能力:GenEval测试获0.63分(启用思维链技术提升至0.73),超过Emu3(0.311)和Janus-Pro(0.267)等同类自回归模型
  • 世界知识整合:WISE基准测试取得0.54分,在处理包含事实性描述的提示时表现接近扩散模型
  • 复杂场景生成:DPG-Bench长文本多对象场景测试获85.28分,证明其强大的组合推理能力
  • 编辑能力:衍生模型NextStep-1-Edit在GEdit-Bench编辑任务中达到6.58分,可精确执行物体增删、背景修改等精细化操作

特别值得注意的是其逻辑一致性优势:在"桌上左侧放苹果右侧放香蕉,上方悬挂吊灯"的指令测试中,NextStep-1的物体位置准确率达91%,远超扩散模型的67%。

NextStep-1项目介绍页面

该截图展示了StepFun团队NextStep-1模型的研究页面,标题为"NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale",包含项目主页、GitHub及Huggingface链接等技术资源信息。页面强调了该模型在自回归图像生成领域的创新性和领先地位。

行业影响与应用前景

多领域应用潜力

NextStep-1已在多领域展现应用潜力:游戏开发者利用其分层生成特性设计可编辑场景;广告公司通过精确物体控制实现品牌元素植入;工业设计师则借助空间关系把控生成符合工程规范的产品原型。

团队已开源完整代码与模型权重(仓库地址:https://gitcode.com/StepFun/NextStep-1-Large-Pretrain),开发者通过以下5行核心代码即可部署基础功能:

from models.gen_pipeline import NextStepPipeline
pipeline = NextStepPipeline.from_pretrained("stepfun-ai/NextStep-1-Large-Pretrain")
image = pipeline.generate_image("a futuristic cityscape at dusk", seed=3407)
image.save("output.jpg")

面临的挑战

当前主要挑战在于生成速度:在H100 GPU上单张512×512图像需28步采样,较扩散模型慢3-5倍。团队计划通过流匹配头蒸馏和推测解码技术优化,目标将生成时间压缩至2秒内。

总结:迈向人机协同创作新范式

NextStep-1的意义不仅是技术突破,更标志着AI图像生成从"效率优先"向"可控性优先"的范式转变。随着优化技术成熟,我们有理由期待:未来的AI创作工具既能保持扩散模型的生成效率,又具备自回归模型的精细控制,真正实现"人机协同"的创作新范式。

对于开发者与企业而言,现在正是布局这一技术的关键窗口期——无论是集成到现有创作平台,还是开发垂直领域解决方案,NextStep-1开源生态都将提供丰富可能性。正如阶跃星辰团队在论文中所述:"连续令牌自回归不是终点,而是多模态生成的NextStep。"

【免费下载链接】NextStep-1-Large-Pretrain 【免费下载链接】NextStep-1-Large-Pretrain 项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large-Pretrain

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值