NextStep-1:140亿参数模型开启连续令牌图像生成新纪元
【免费下载链接】NextStep-1-Large-Pretrain 项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large-Pretrain
导语
阶跃星辰(StepFun)团队于2025年8月推出的NextStep-1模型,以"连续令牌+自回归"的创新架构打破AI图像生成技术瓶颈,140亿参数规模实现高保真图像合成与精准控制的双重突破。
行业现状:技术分化下的市场空白
当前文生图领域形成明显技术分水岭:扩散模型凭借并行计算优势占据83%商业份额(2024年行业数据),却因"黑箱式"生成难以满足专业创作的高精度编辑需求;传统自回归模型虽具备序列生成逻辑,却受限于离散量化导致的信息损失。行业数据显示,2025年上半年专业创作者对"可控性优先"工具的需求同比增长45%,尤其在游戏开发、创意设计等领域,对物体层级关系与空间逻辑的要求已超越现有技术能力范围。
核心亮点:连续令牌与流匹配的技术革命
统一多模态架构设计
NextStep-1采用140亿参数Transformer骨干网络与1.57亿参数流匹配头(Flow Matching Head)的组合架构,创新性地将离散文本令牌与连续图像令牌统一为单一序列,通过"下一个令牌预测"目标实现端到端训练。
如上图所示,该架构包含文本分词器、图像分词器、因果Transformer及流匹配头四大核心组件,右侧详细呈现了Patch-Wise Flow Matching的流程逻辑。这种设计彻底绕开传统自回归模型依赖的离散化步骤,完整保留视觉数据的连续性与丰富细节。
突破性训练技术
团队提出两项关键技术解决连续令牌训练稳定性问题:通道归一化(Channel-Wise Normalization)作为稳定性"压舱石",确保高CFG指导强度下仍能生成清晰无伪影图像;反直觉的噪声正则化策略——在令牌器训练中主动引入更多噪声,虽使重构误差增加15%,却让最终生成图像的FID分数提升9.3%,构建出更鲁棒的潜在空间。
权威评测中的SOTA表现
在国际基准测试中,NextStep-1展现全面优势:GenEval文本对齐能力获0.63分(启用自洽链技术提升至0.73),超过Emu3(0.311)和Janus-Pro(0.267);WISE世界知识整合取得0.54分,处理"埃菲尔铁塔旁的唐代风格建筑"等复杂描述时表现接近顶级扩散模型;DPG-Bench长文本测试获85.28分,可准确生成包含10+物体的多层级场景。
行业影响与应用前景
垂直领域价值凸显
该模型已在多领域展现应用潜力:游戏开发者利用其分层生成特性设计可编辑场景;创意公司通过精确编辑能力实现品牌元素精准植入;工业设计领域则受益于对空间关系的严格把控,生成符合工程规范的产品原型。开发者可通过简洁代码实现部署:
from models.gen_pipeline import NextStepPipeline
pipeline = NextStepPipeline.from_pretrained("stepfun-ai/NextStep-1-Large-Pretrain")
image = pipeline.generate_image("a futuristic cityscape at dusk", seed=3407)
image.save("output.jpg")
技术演进方向
尽管性能卓越,NextStep-1仍面临自回归模型的固有挑战:在H100 GPU上单张512×512图像生成需28步采样,较扩散模型慢3-5倍。团队已明确优化方向:流匹配头蒸馏实现少步生成、借鉴LLM领域推测解码技术加速序列生成,未来有望实现"扩散效率+自回归可控性"的技术融合。
该图展示了NextStep-1的技术架构细节,核心为Causal Transformer结合文本与图像分词器,通过流匹配头实现连续令牌生成。这种设计证明在不牺牲连续性的前提下,构建简洁高效的自回归模型完全可行,为多模态生成开辟新路径。
结论与前瞻
NextStep-1的发布标志着AI图像生成从"效率优先"向"可控性优先"的范式转变。阶跃星辰团队将模型开源(项目地址:https://gitcode.com/StepFun/NextStep-1-Large-Pretrain),为开发者提供探索连续令牌生成技术的基础平台。正如其技术白皮书中所述:"连续令牌自回归不是终点,而是多模态生成的NextStep",随着优化技术的成熟,我们有理由期待这一架构在高分辨率生成与实时交互领域的进一步突破。
该截图展示了StepFun团队发布的NextStep-1研究主页,标题为"NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale"。作为2025年图像生成领域的重要进展,这项研究为行业提供了兼顾生成质量与控制精度的新解决方案,尤其适合专业创作场景的深度应用。
【免费下载链接】NextStep-1-Large-Pretrain 项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large-Pretrain
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考






