NextStep-1横空出世: autoregressive图像生成技术迎来革命性突破
【免费下载链接】NextStep-1-Large-Edit 项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large-Edit
2025年8月15日,人工智能图像生成领域再掀技术风暴。StepFun团队正式发布全新autoregressive(AR)图像生成模型NextStep-1,该模型凭借创新架构设计与卓越性能表现,一举打破扩散模型长期垄断的技术格局,为文本驱动的图像创作与编辑开辟全新路径。作为当前最具通用性的图像生成系统,NextStep-1不仅实现了与顶尖扩散模型相匹敌的生成质量,更通过纯自回归架构设计,重新定义了视觉生成领域的技术边界。
全能型视觉创作平台:从文本到图像的无缝转换
NextStep-1构建了一套完整的视觉内容生成体系,其核心优势在于将高精度文本到图像生成能力与强大的图像编辑功能深度融合。该系统支持包括物体增删、背景替换、动作调整、风格迁移在内的全场景编辑需求,能够精准解析日常自然语言指令,实现灵活自由的图像创作。无论是生成"一只戴着宇航员头盔的橘猫在火星表面跳跃"的奇幻场景,还是将"清晨的城市街景"转换为梵高星空风格,NextStep-1均能通过直观的文本交互完成高质量视觉输出。
突破技术桎梏:纯自回归架构的颠覆性创新
长期以来,autoregressive模型在自然语言处理领域取得辉煌成就[1-3],但在图像生成任务中始终面临重大技术瓶颈。传统方案或依赖笨重的外部扩散模块,或通过向量量化(VQ)[11-13]将图像压缩为离散 tokens,导致生成质量与效率难以兼顾[4-10]。NextStep-1通过三大技术创新实现突破:
首先,该模型采用140亿参数的纯自回归架构,配合超轻量级流匹配头(flow-matching head),彻底摆脱对外部模块的依赖。其次,创新性地使用连续图像tokens而非离散视觉词汇,完整保留图像数据的丰富细节。最后,通过特殊优化的自编码器将图像转化为连续的 patch-wise latent tokens,与文本 tokens 共同构成序列,由因果Transformer骨干网络统一处理,1.57亿参数的流匹配头[14]直接预测视觉位置的下一个连续图像token。这种统一的next-token范式不仅架构简洁、扩展性强,更能稳定生成细节丰富的高清图像。
全面超越的基准测试表现
NextStep-1在多维度权威基准测试中展现出卓越性能,充分验证其技术先进性:
文本理解与场景构建能力
在GenEval[15]评测中,NextStep-1在无self-CoT条件下获得0.63分,启用self-CoT后提升至0.73分,展现强大的指令跟随能力。针对复杂构图场景的GenAI-Bench[16]测试中,该模型在基础提示词任务中达到0.88分,高级提示词任务获得0.67分,证明其对复杂场景的理解与渲染能力。在处理长文本详细描述的DPG-Bench[17]中,NextStep-1以85.28分的成绩,超越Stable Diffusion 3.5 Large(83.38分)和Flux-1-dev(83.79分)等主流扩散模型,印证其处理复杂用户需求的可靠性。
世界知识整合能力
WISE[18]基准测试专门评估模型将真实世界知识融入图像的能力,NextStep-1以0.54的总分超越所有同类自回归模型及多数扩散模型。在文化常识、时空关系、生物特征等细分维度,该模型均表现出色,特别是在物理常识维度获得0.63分,体现其对客观世界规律的深刻理解。这一能力使得生成的"漂浮在太空中的茶壶"能自然呈现失重状态,"中世纪骑士手持智能手机"的穿越场景也能保持视觉逻辑的一致性。
图像编辑精度
专用编辑模型NextStep-1-Edit在GEdit-Bench[19]中获得6.58分,ImgEdit-Bench[20]测试达到3.71分,编辑能力媲美GPT-4o(4.20分)和Flux.1-Kontext-dev(3.71分)。无论是"将沙漠背景替换为热带雨林"的全局编辑,还是"给人物添加红色围巾"的局部修改,模型均能精准执行指令并保持图像整体风格统一。
效率与性能的完美平衡
NextStep-1在保证生成质量的同时,展现出优异的计算效率。得益于纯自回归架构设计,模型推理过程无需多步迭代,在相同硬件条件下,文本到图像生成速度较Stable Diffusion XL提升约40%。140亿参数规模配合优化的tokenization策略,使模型既能在消费级GPU上实现实时交互,又可在专业计算集群上生成4K分辨率的超高清图像。这种"轻量级架构+高效推理"的设计理念,为模型的工业化部署奠定坚实基础。
技术突破背后的核心发现
StepFun团队在研发过程中获得多项突破性发现,这些技术洞见不仅支撑NextStep-1的成功,更为autoregressive图像生成领域提供重要研究方向:
因果Transformer:视觉创作的真正引擎
长期以来,学术界质疑因果Transformer能否独立承担图像生成任务。NextStep-1通过对比实验给出肯定答案:测试40M、157M和528M三种不同规模的流匹配头发现,图像质量几乎不受头尺寸影响。这表明Transformer骨干网络才是真正的核心驱动力,负责高级推理与生成建模,而流匹配头仅作为轻量级采样器,将Transformer的上下文预测转化为最终图像patch。这一发现彻底改变了视觉生成模型的架构设计思路。
Tokenizer:稳定性与质量的关键支柱
连续图像tokens处理中,tokenizer是保证系统稳定与视觉保真度的核心组件。NextStep-1的两大技术突破值得关注:
通道归一化技术:研究发现,高CFG(classifier-free guidance)尺度下的图像伪影源于生成tokens的统计漂移。通过在tokenizer中应用通道归一化技术,模型可在高CFG设置下保持token统计稳定,即使将引导强度调至最大,仍能生成清晰无伪影的图像。
噪声增强训练:反直觉的是,在tokenizer训练阶段增加噪声,虽然提高重构误差,却显著改善最终生成质量。这种操作使 latent空间分布更均匀鲁棒,为autoregressive模型提供更易于学习的起点,实验表明适度噪声注入可使FID分数降低12%。
多模态生成的未来展望
NextStep-1的技术突破不仅提供强大的基础模型,更揭示了autoregressive架构在连续数据生成领域的巨大潜力。该研究证明纯因果Transformer能够独立驱动高质量图像生成,为视频、3D等更复杂模态的自回归生成开辟道路。StepFun团队已通过开源方式发布模型权重与技术报告,包括训练代码、模型 checkpoint 及详细实现文档,仓库地址为 https://gitcode.com/StepFun/NextStep-1-Large-Edit。
随着多模态技术融合加速,NextStep-1展现的统一序列建模范式,有望成为连接文本、图像、音频等不同模态的通用框架。未来研究将聚焦于跨模态上下文学习、长序列依赖建模及小样本视觉编辑等方向,推动人工智能创作工具向更自然、更高效、更富创造力的方向演进。
参考文献
[1] T. Brown等,《Language models are few-shot learners》,NeurIPS, 2020
[2] OpenAI,《Introducing gpt-4.1 in the api》,OpenAI Blog, 2025a
[3] A. Radford等,《Improving language understanding by generative pre-training》,2018
[4] X. Chen等,《Janus-pro: Unified multimodal understanding and generation with data and model scaling》,arXiv:2501.17811, 2025
[5] R. Dong等,《Dreamllm: Synergistic multimodal comprehension and creation》,ICLR, 2024
[6] Q. Sun等,《Emu: Generative pretraining in multimodality》,ICLR, 2023
[7] Q. Sun等,《Generative multimodal models are in-context learners》,CVPR, 2024
[8] Y. Sun等,《Multimodal latent language modeling with next-token diffusion》,arXiv:2412.08635, 2024
[9] X. Wang等,《Emu3: Next-token prediction is all you need》,arxiv:2409.18869, 2024
[10] J. Yu等,《Scaling autoregressive models for content-rich text-to-image generation》,TMLR, 2022
[11] S. M. A. Eslami等,《Taming transformers for high-resolution image synthesis》,ICML, 2021
[12] L. Yu等,《Language model beats diffusion–tokenizer is key to visual generation》,arXiv:2310.05737, 2023
[13] C. Zheng等,《Movq: Modulating quantized vectors for high-fidelity image generation》,NeurIPS, 2022
[14] Y. Lipman等,《Flow matching for generative modeling》,arXiv:2210.02747, 2023b
[15] D. Ghosh等,《Geneval: An object-focused framework for evaluating text-to-image alignment》,NeurIPS, 2023
[16] B. Li等,《Evaluating and improving compositional text-to-visual generation》,CVPR, 2024
[17] X. Hu等,《Ella: Equip diffusion models with llm for enhanced semantic alignment》,arXiv:2403.05135, 2024
[18] Y. Niu等,《Wise: A world knowledge-informed semantic evaluation for text-to-image generation》,arXiv:2503.07265, 2025
[19] S. Liu等,《Step1x-edit: A practical framework for general image editing》,arXiv:2504.17761, 2025
[20] Y. Ye等,《Imgedit: A unified image editing dataset and benchmark》,arXiv:2505.20275, 2025
【免费下载链接】NextStep-1-Large-Edit 项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large-Edit
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



