NextStep-1:连续令牌技术引领AI图像生成范式变革

NextStep-1:连续令牌技术引领AI图像生成范式变革

【免费下载链接】NextStep-1-Large 【免费下载链接】NextStep-1-Large 项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large

导语

2025年8月,StepFun AI推出的140亿参数自回归模型NextStep-1,以"连续令牌+流匹配"创新架构突破传统技术瓶颈,在多项权威测评中刷新自回归模型性能纪录,开创AI像人类画家般"逐步创作"的新范式。

行业现状:扩散模型主导下的技术突围

当前AI图像生成市场呈现明显技术分化:以Stable Diffusion、MidJourney为代表的扩散模型凭借并行计算优势占据83%商业份额(2024年行业数据),但其"黑箱式"生成过程导致可控性不足;而传统自回归模型受限于离散令牌量化损失,始终难以突破图像质量瓶颈。这种技术割据使得专业创作者陷入"高质量vs高精度控制"的两难选择。

阿里云创新中心2024年研究表明,使用连续标记的模型产生的图像质量显著高于离散标记方案,且生成标记顺序对评估性能有重大影响。这为自回归模型的技术突围指明了方向——NextStep-1正是这一研究方向的集大成者,通过140亿参数Transformer骨干网络与1.57亿参数流匹配头的创新融合,首次实现了无需离散量化的端到端自回归图像生成。

核心亮点:连续令牌技术三大突破

1. 架构创新:统一离散-连续令牌空间

NextStep-1最革命性的突破在于其"离散文本令牌+连续图像令牌"的混合架构。传统自回归模型需通过向量量化(VQ)将图像转换为离散令牌,不可避免造成信息损失;而NextStep-1采用改进的Flux VAE作为图像令牌器,直接生成16通道连续潜在表示,配合流匹配头实现连续令牌的自回归预测。这种设计使模型在GenEval基准测试中取得0.63的高分,较传统VQ方案提升27%。

2. 性能跃升:多维度测评刷新纪录

在多项权威测评中,NextStep-1展现出全面优势:

  • GenAI-Bench:基础提示0.88分,高级提示0.67分,均为自回归模型第一
  • DPG-Bench:综合得分85.28,超越同类模型19.3%
  • WISE基准:整体得分0.54(使用Self-CoT时达0.67),超过部分扩散模型

NextStep-1生成的多场景图像展示

如上图所示,NextStep-1生成的图像集合展示了其在人物、动物、城市景观等多种场景下的高保真度表现。中间突出显示的"NextStep1"标识周围环绕着不同风格的生成结果,直观体现了模型对细节纹理和场景深度的精准把控能力,这正是连续令牌技术在减少信息损失方面的直接体现。

3. 编辑能力:自然语言驱动的多模态交互

NextStep-1在图像编辑领域展现出独特优势。通过在100万高质量编辑数据上微调,模型可理解复杂自然语言指令,实现物体增删、背景修改、动作调整等多种编辑操作。在GEdit-Bench测试中,其编辑得分达6.58,尤其在"保持原图风格一致性"和"指令跟随准确率"两项指标上领先同类模型。这种能力源于其自回归生成的逐块特性,为交互式创作提供了天然支持。

行业影响与趋势:自回归范式的复兴

NextStep-1的出现正在重塑AI图像生成技术格局。其三大产业价值不容忽视:

创作流程重构:纯自回归设计避免了扩散模型的复杂采样流程,使图像生成从"随机噪声迭代"转变为"逐步精细创作",更符合人类创作习惯。StepFun开放平台数据显示,采用NextStep-1的创作者平均交互修改次数减少42%。

工程部署简化:统一架构降低了多模态系统的开发复杂度。开发者可通过简洁API实现文本-图像-编辑全流程:

from models.gen_pipeline import NextStepPipeline
pipeline = NextStepPipeline.from_pretrained("StepFun/NextStep-1-Large")
image = pipeline.generate_image("A realistic photograph of a wall with 'NextStep-1.1 is coming' prominently displayed")

多模态扩展潜力:统一处理文本/图像令牌的框架为视频生成、3D建模等领域提供了可扩展路径。StepFun后续发布的Step1X-Edit v1.2图像编辑模型正是基于这一架构演进而来,在GEdit-Bench评测中实现7.42的整体编辑得分。

总结:可控性与质量的平衡之道

NextStep-1以连续令牌技术突破了自回归模型的性能瓶颈,证明了在不牺牲图像质量的前提下,构建纯粹端到端自回归图像生成模型的可行性。尽管仍面临推理速度慢(H100单卡生成512x512图像需28步)、高分辨率生成效率低等挑战,但其在可控性、编辑能力和多模态扩展方面的优势已显现出独特竞争力。

对于行业从业者,现阶段可重点关注三个方向:内容创作领域的交互式设计工具、电商场景的虚拟商品生成,以及教育行业的可视化教学素材制作。随着StepFun计划推出的推测解码优化和流匹配头蒸馏技术,自回归模型有望在保持可控性优势的同时,进一步缩小与扩散模型在生成速度上的差距,推动AI创作工具向更智能、更自然的方向发展。

【免费下载链接】NextStep-1-Large 【免费下载链接】NextStep-1-Large 项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值