NextStep-1震撼发布:140亿参数自回归模型改写图像生成规则,无需扩散模型也能实现SOTA级效果...

NextStep-1震撼发布:140亿参数自回归模型改写图像生成规则,无需扩散模型也能实现SOTA级效果

【免费下载链接】NextStep-1-Large-Edit 【免费下载链接】NextStep-1-Large-Edit 项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large-Edit

导语

2025年8月,阶跃星辰(StepFun)团队推出的NextStep-1模型以140亿参数自回归架构+轻量级流匹配头的创新设计,在文本到图像生成领域实现突破,不仅在多项权威基准测试中超越同类模型,更开创了"像人类画家一样逐步创作"的AI生成范式。

行业现状:图像生成的两种技术路线之争

当前AI图像生成领域存在明显的技术路线分化。以Stable Diffusion、MidJourney为代表的扩散模型凭借并行优化能力占据主流市场,2024年数据显示其占据商业图像生成市场83%份额,但其"黑箱式"生成过程缺乏可控性;而自回归模型虽具有天然的序列生成优势,却因依赖离散量化(VQ)导致信息损失,或需耦合计算密集型扩散解码器,始终难以突破性能瓶颈。

随着大语言模型技术的成熟,研究人员开始探索将自回归范式应用于视觉生成领域。NextStep-1的出现,正是这一探索的重要突破。该模型通过创新的连续令牌处理机制,在保持自回归模型可控性优势的同时,大幅提升了生成质量,为图像生成技术开辟了新路径。

图片展示了StepFun团队发布的NextStep-1学术论文标题页面,包含项目名称、团队信息及相关资源链接

如上图所示,图片展示了StepFun团队发布的NextStep-1学术论文标题页面,包含项目名称、团队信息及相关资源链接。这一页面不仅是研究成果的正式呈现,也标志着自回归图像生成技术进入新阶段,为行业研究者和开发者提供了重要参考。

核心亮点:连续令牌与流匹配的创新融合

统一多模态框架设计

NextStep-1采用140亿参数的Transformer骨干网络,辅以1.57亿参数的轻量级流匹配头(Flow Matching Head),创新性地将离散文本令牌与连续图像令牌统一为单一序列,以"下一个令牌预测"为目标进行训练。这种设计从根本上绕开了传统自回归模型依赖的图像Tokenizer离散化步骤,完整保留视觉数据的丰富性。

高维隐空间稳定技术

为解决连续令牌训练的稳定性问题,团队提出两项关键技术:通道归一化(Channel-Wise Normalization)和噪声正则化。通道归一化作为稳定性的"压舱石",有效稳定了令牌的统计特性,即使在高CFG指导强度下也能确保生成清晰、无伪影的图像;而训练Tokenizer时加入更多噪声正则化,反而显著提升了最终生成图像的质量,这一反直觉发现为构建更鲁棒的潜在空间提供了新思路。

该图展示了NextStep-1模型的架构,包含文本分词器、因果Transformer和流匹配头等组件,通过统一多模态框架实现文本到图像生成,并结合Patch-Wise Flow Matching流程确保生成精度

如上图所示,该图展示了NextStep-1模型的架构,包含文本分词器、因果Transformer和流匹配头等组件,通过统一多模态框架实现文本到图像生成,并结合Patch-Wise Flow Matching流程确保生成精度。这一架构极其简洁纯粹,既解放了对离散化的依赖,又摆脱了对外部大型扩散模型的"辅助",实现了真正意义上的端到端训练。

性能表现:自回归模型中的SOTA

在国际权威评测中,NextStep-1展现出全面的性能优势:

  • 图像-文本对齐能力:GenEval测试获0.63分(启用思维链技术提升至0.73),GenAI-Bench基础提示0.88分,高级提示0.67分(思维链技术提升至0.9和0.74),DPG-Bench长文本多对象场景测试获85.28分

  • 世界知识整合:WISE基准测试取得0.54分,在处理包含事实性描述的提示时表现接近扩散模型

  • 编辑能力:衍生模型NextStep-1-Edit在GEdit-Bench编辑任务中达到6.58分,ImgEdit-Bench测试中获得3.71分,可精确执行物体增删、背景修改等精细化操作

特别值得注意的是,研究团队通过对比实验发现,流匹配头尺寸从400万参数增至5280万参数时,图像质量评估指标变化小于3%,证实140亿参数的Transformer主干才是生成逻辑的核心载体,流匹配头仅作为高效采样器存在。

应用场景:从创意设计到精准编辑

高质量图像生成

NextStep-1可根据文本描述生成高保真图像,支持复杂场景构建和细节呈现。例如,用户输入"A baby panda wearing an Iron Man mask, holding a board with 'NextStep-1' written on it",模型能生成兼具创意与细节的图像,满足广告设计、游戏美术等场景需求。

多样化图像编辑

模型具备强大的图像编辑能力,覆盖物体增删、背景修改、动作调整、风格迁移等多种操作。通过自然语言指令,用户可轻松实现"给狗戴上海盗帽,将背景改为暴风雨海面"等复杂编辑任务,无需专业设计技能。

展示了NextStep-1-Large-Edit模型在图像生成、图像编辑及自由形式操作方面的能力,包含创意图像生成、物体添加/材质改变等编辑任务及人物/动物动态场景调整示例

如上图所示,展示了NextStep-1-Large-Edit模型在图像生成、图像编辑及自由形式操作方面的能力,包含创意图像生成、物体添加/材质改变等编辑任务及人物/动物动态场景调整示例。这些示例充分体现了模型对复杂指令的理解能力和精细操作水平,为内容创作提供了高效工具。

行业影响与未来趋势

推动自回归范式发展

NextStep-1的开源将推动自回归模型在图像生成领域的研究与应用。其简洁的架构设计和创新的连续令牌处理方法,为多模态生成领域提供了新视角,有望吸引更多研究者探索这一方向。

降低高质量图像生成门槛

模型的强编辑能力和自然语言交互方式,将大幅降低专业图像生成和编辑的技术门槛,使中小企业和个人创作者也能轻松获得高质量视觉内容,推动创意产业的普及发展。

面临的挑战与改进方向

作为新范式的初步探索,NextStep-1仍存在一些局限性:

  • 推理延迟:在H100 GPU上批量大小为1的情况下,每个标记的延迟主要来自LLM的串行解码
  • 高分辨率训练:自回归生成的严格顺序性质要求在更高分辨率下需要更多的训练步骤才能收敛
  • 监督微调:需要百万样本规模的数据集才能获得实质性改进,小规模数据集下模型要么改进微小要么突然过拟合

团队表示,未来将重点优化流匹配头参数量、探索少步生成技术,并借鉴大语言模型领域的推测解码或多标记预测技术加速自回归主干。

快速开始:环境配置与推理示例

环境设置

用户可通过以下命令快速搭建运行环境:

conda create -n nextstep python=3.11 -y
conda activate nextstep

pip install uv # optional

GIT_LFS_SKIP_SMUDGE=1 git clone https://gitcode.com/StepFun/NextStep-1-Large-Edit && cd NextStep-1-Large-Edit
uv pip install -r requirements.txt

hf download stepfun-ai/NextStep-1-Large-Edit "vae/checkpoint.pt" --local-dir ./

推理代码示例

模型提供简洁的Python API,支持文本到图像生成和图像编辑功能:

from PIL import Image
from transformers import AutoTokenizer, AutoModel
from models.gen_pipeline import NextStepPipeline
from utils.aspect_ratio import center_crop_arr_with_buckets

HF_HUB = "stepfun-ai/NextStep-1-Large-Edit"

# load model and tokenizer
tokenizer = AutoTokenizer.from_pretrained(HF_HUB, local_files_only=True, trust_remote_code=True,force_download=True)
model = AutoModel.from_pretrained(HF_HUB, local_files_only=True, trust_remote_code=True,force_download=True)
pipeline = NextStepPipeline(tokenizer=tokenizer, model=model).to(device=f"cuda")

# set prompts
positive_prompt = None
negative_prompt = "Copy original image."
example_prompt = "<image>" + "Add a pirate hat to the dog's head. Change the background to a stormy sea with dark clouds. Include the text 'NextStep-Edit' in bold white letters at the top portion of the image."

# load and preprocess reference image
IMG_SIZE = 512
ref_image = Image.open("./assets/origin.jpg")
ref_image = center_crop_arr_with_buckets(ref_image, buckets=[IMG_SIZE])

# generate edited image
image = pipeline.generate_image(
    example_prompt,
    images=[ref_image],
    hw=(IMG_SIZE, IMG_SIZE),
    num_images_per_caption=1,
    positive_prompt=positive_prompt,
    negative_prompt=negative_prompt,
    cfg=7.5,
    cfg_img=2,
    cfg_schedule="constant",
    use_norm=True,
    num_sampling_steps=50,
    timesteps_shift=3.2,
    seed=42,
)[0]
image.save(f"./assets/output.jpg")

结语

NextStep-1的发布标志着自回归图像生成技术进入新阶段。其在保持自回归模型可控性优势的同时,通过创新的连续令牌处理机制实现了高质量图像生成,为AI视觉创作领域带来新的可能性。随着模型的开源和社区的参与,我们有理由期待自回归范式在图像生成领域绽放更多光彩。

NextStep-1最重要的贡献可能在于它证明了AI可以像人类一样进行创作——不是通过神秘的瞬间灵感,而是通过系统性的、逐步的、可理解的过程。这种方法不仅在技术上更加优雅,也在哲学层面上更符合我们对创造性工作的理解。当AI能够像人类艺术家一样一笔一划地创作时,它们就不再是冷冰冰的工具,而可能成为真正的创作伙伴。

【免费下载链接】NextStep-1-Large-Edit 【免费下载链接】NextStep-1-Large-Edit 项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large-Edit

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值