140亿参数自回归模型NextStep-1开源:无需扩散模型,刷新图像生成质量纪录
【免费下载链接】NextStep-1-Large 项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large
导语
阶跃星辰(StepFun)团队发布140亿参数自回归图像生成模型NextStep-1,以连续视觉标记技术突破传统离散化瓶颈,在多维度测评中刷新自回归模型性能纪录,部分指标接近主流扩散模型水平。
行业现状:图像生成的范式之争
当前AI图像生成领域形成两大技术路线:以Stable Diffusion为代表的扩散模型凭借并行处理优势占据主流市场,其通过迭代去噪实现图像生成,在速度和分辨率上表现突出;自回归模型则因顺序生成特性在可控性上独具潜力,但长期受限于离散化信息损失和架构复杂性,难以在生成质量上与扩散模型抗衡。
近年来,随着大语言模型技术的成熟,研究人员开始探索将自回归范式应用于视觉生成领域。NextStep-1的出现,正是这一探索的重要突破。该模型通过创新的连续令牌处理机制,在保持自回归模型可控性优势的同时,大幅提升了生成质量,为图像生成技术开辟了新路径。
如上图所示,这是StepFun团队发布的NextStep-1项目标题页,展示了"NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale"的项目标题及相关链接(主页、GitHub、Huggingface),聚焦自回归图像生成技术的探索。这一页面不仅是研究成果的正式呈现,也标志着自回归图像生成技术进入新阶段,为行业研究者和开发者提供了重要参考。
核心亮点:连续令牌与流匹配的创新融合
统一多模态框架设计
NextStep-1采用140亿参数的Transformer骨干网络,辅以1.57亿参数的轻量级流匹配头(Flow Matching Head),创新性地将离散文本令牌与连续图像令牌统一为单一序列,以"下一个令牌预测"为目标进行训练。这种设计从根本上绕开了传统自回归模型依赖的图像Tokenizer离散化步骤,完整保留视觉数据的丰富性。
高维隐空间稳定技术
为解决连续令牌训练的稳定性问题,团队提出两项关键技术:通道归一化(Channel-Wise Normalization)和噪声正则化。通道归一化作为稳定性的"压舱石",有效稳定了令牌的统计特性,即使在高CFG指导强度下也能确保生成清晰、无伪影的图像;而训练Tokenizer时加入更多噪声正则化,反而显著提升了最终生成图像的质量,这一反直觉发现为构建更鲁棒的潜在空间提供了新思路。
如上图所示,这张图展示了NextStep-1模型的自回归图像生成架构,包含文本分词器、图像分词器、因果Transformer、LM头和流匹配头等组件,描述了文本到图像生成的流程及patch-wise流匹配的细节。这一架构极其简洁纯粹,既解放了对离散化的依赖,又摆脱了对外部大型扩散模型的"辅助",实现了真正意义上的端到端训练。
性能表现:自回归模型中的SOTA
在多个行业公认的Benchmark测试中,NextStep-1展现出卓越性能:在GenEval、GenAI-Bench和DPG-Bench等综合测评中,其性能超越现有自回归模型,达到新的SOTA水平;在图像编辑专项测评GEdit-Bench和ImgEdit-Bench上,也表现出强大的编辑能力。
特别值得注意的是,NextStep-1在部分指标上已能与顶尖扩散模型直接竞争。在GenEval测试中获得了0.63分(使用自我思维链技术后提升到0.73分),在GenAI-Bench的高级提示测试中达到0.67分,在DPG-Bench上取得85.28分。在世界知识整合能力评估的WISE基准测试中获得0.54分(使用思维链技术后提升到0.67分),这些结果充分展示了模型强大的知识感知语义对齐和跨领域推理能力。
应用场景:从创意设计到精准编辑
高质量图像生成
NextStep-1可根据文本描述生成高保真图像,支持复杂场景构建和细节呈现。例如,用户输入"A baby panda wearing an Iron Man mask, holding a board with 'NextStep-1.1 is coming' prominently displayed",模型能生成兼具创意与细节的图像,满足广告设计、游戏美术等场景需求。
多样化图像编辑
模型具备强大的图像编辑能力,覆盖物体增删、背景修改、动作调整、风格迁移等多种操作。通过自然语言指令,用户可轻松实现"给狗戴上海盗帽,将背景改为暴风雨海面"等复杂编辑任务,无需专业设计技能。
研究团队开发的NextStep-1-Edit在图像编辑任务上同样表现出色,在GEdit-Bench英文测试中获得6.58分,在ImgEdit-Bench测试中获得3.71分,能够根据用户的指令对图像进行精确修改,就像一个听话的助手能够按照你的要求调整画作的细节。
行业影响与未来趋势
推动自回归范式发展
NextStep-1的开源将推动自回归模型在图像生成领域的研究与应用。其简洁的架构设计和创新的连续令牌处理方法,为多模态生成领域提供了新视角,有望吸引更多研究者探索这一方向。
降低高质量图像生成门槛
模型的强编辑能力和自然语言交互方式,将大幅降低专业图像生成和编辑的技术门槛,使中小企业和个人创作者也能轻松获得高质量视觉内容,推动创意产业的普及发展。
面临的挑战与改进方向
作为新范式的初步探索,NextStep-1仍存在一些局限性:高分辨率生成时的收敛效率问题、顺序解码带来的推理延迟、小规模数据集上的微调稳定性等。团队表示,未来将重点优化流匹配头参数量、探索少步生成技术,并借鉴大语言模型领域的多令牌预测技术加速自回归主干。
快速开始:环境配置与推理示例
环境设置
用户可通过以下命令快速搭建运行环境:
conda create -n nextstep python=3.11 -y
conda activate nextstep
pip install uv
GIT_LFS_SKIP_SMUDGE=1 git clone https://gitcode.com/hf_mirrors/stepfun-ai/NextStep-1-Large && cd NextStep-1-Large
uv pip install -r requirements.txt
hf download stepfun-ai/NextStep-1-Large "vae/checkpoint.pt" --local-dir ./
推理代码示例
模型提供简洁的Python API,支持文本到图像生成功能:
import torch
from transformers import AutoTokenizer, AutoModel
from models.gen_pipeline import NextStepPipeline
HF_HUB = "stepfun-ai/NextStep-1-Large"
# load model and tokenizer
tokenizer = AutoTokenizer.from_pretrained(HF_HUB, local_files_only=True, trust_remote_code=True)
model = AutoModel.from_pretrained(HF_HUB, local_files_only=True, trust_remote_code=True)
pipeline = NextStepPipeline(tokenizer=tokenizer, model=model).to(device="cuda", dtype=torch.bfloat16)
# set prompts
positive_prompt = "masterpiece, film grained, best quality."
negative_prompt = "lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry."
example_prompt = "A realistic photograph of a wall with \"NextStep-1.1 is coming\" prominently displayed"
# generate image from text
IMG_SIZE = 512
image = pipeline.generate_image(
example_prompt,
hw=(IMG_SIZE, IMG_SIZE),
num_images_per_caption=1,
positive_prompt=positive_prompt,
negative_prompt=negative_prompt,
cfg=7.5,
cfg_img=1.0,
cfg_schedule="constant",
use_norm=False,
num_sampling_steps=28,
timesteps_shift=1.0,
seed=3407,
)[0]
image.save("./assets/output.jpg")
结语
NextStep-1的发布标志着自回归图像生成技术进入新阶段。其在保持自回归模型可控性优势的同时,通过创新的连续令牌处理机制实现了高质量图像生成,为AI视觉创作领域带来新的可能性。随着模型的开源和社区的参与,我们有理由期待自回归范式在图像生成领域绽放更多光彩。
项目地址:https://gitcode.com/hf_mirrors/stepfun-ai/NextStep-1-Large
【免费下载链接】NextStep-1-Large 项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考





