内容源自公主号计算机科研圈
自回归模型,是 AIGC 领域一块迷人的基石。开发者们一直在探索它在视觉生成领域的边界,从经典的离散序列生成,到结合强大扩散模型的混合范式,每一步都凝聚了社区的智慧。
这些工作,比如 MAR、Fluid、LatentLM 等,为我们带来了巨大的启发,也让我们看到了进一步优化的空间:比如,如何避免离散化带来的信息损失?如何让模型的架构更轻盈、更强大?
带着这些问题,阶跃星辰团队进行了新的尝试,并分享了阶段性成果:NextStep-1。
阶跃星辰的初衷是探索一条新的自回归图像生成的路径。NextStep-1 的核心思想是直接在连续的视觉空间中,以自回归方式进行生成。
为实现这一点,团队采用了一个轻量的「流匹配头」(Flow Matching Head)。它让模型能够:
-
学会在连续的视觉空间中直接生成单个图像 Patch,从根本上绕开了作为信息瓶颈的离散化步骤。
-
模型以自回归的方式,逐一生成所有 patches,最终完成一幅完整的图像。
这一设计带来了另一个显著优势:架构的简洁与纯粹。由于不再需要外部大型扩散模型的 「辅助」,NextStep-1 的整体架构变得高度统一,实现了真正意义上的端到端训练。
阶跃星辰团队认为,NextStep-1 的探索指向了一个有趣且充满潜力的方向。它证明了在不牺牲连续性的前提下,构建一个简洁、高效的自回归模型是完全可行的。
这只是探索的第一步。阶跃星辰选择将 NextStep-1 开源,衷心期待它能引发更多有价值的讨论,并希望能与社区的研究者一起,继续推动生成技术的演进。

-
论文链接:https://arxiv.org/abs/2508.10711
-
GitHub 链接:https://github.com/stepfun-ai/NextStep-1
-
Hugging Face 模型:https://huggingface.co/collections/stepfun-ai/nextstep-1-689d80238a01322b93b8a3dc
动因探究:背后的技术支撑
整体架构

最低0.47元/天 解锁文章
151

被折叠的 条评论
为什么被折叠?



