NextStep-1：一次在图像生成上自回归范式的探索

最新推荐文章于 2025-12-17 17:41:55 发布

原创

最新推荐文章于 2025-12-17 17:41:55 发布 · 1.3k 阅读

·

30

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#回归 #数据挖掘 #人工智能 #3d

内容源自公主号计算机科研圈

自回归模型，是 AIGC 领域一块迷人的基石。开发者们一直在探索它在视觉生成领域的边界，从经典的离散序列生成，到结合强大扩散模型的混合范式，每一步都凝聚了社区的智慧。

这些工作，比如 MAR、Fluid、LatentLM 等，为我们带来了巨大的启发，也让我们看到了进一步优化的空间：比如，如何避免离散化带来的信息损失？如何让模型的架构更轻盈、更强大？

带着这些问题，阶跃星辰团队进行了新的尝试，并分享了阶段性成果：NextStep-1。

阶跃星辰的初衷是探索一条新的自回归图像生成的路径。NextStep-1 的核心思想是直接在连续的视觉空间中，以自回归方式进行生成。

为实现这一点，团队采用了一个轻量的「流匹配头」（Flow Matching Head）。它让模型能够：

学会在连续的视觉空间中直接生成单个图像 Patch，从根本上绕开了作为信息瓶颈的离散化步骤。
模型以自回归的方式，逐一生成所有 patches，最终完成一幅完整的图像。

这一设计带来了另一个显著优势：架构的简洁与纯粹。由于不再需要外部大型扩散模型的「辅助」，NextStep-1 的整体架构变得高度统一，实现了真正意义上的端到端训练。

阶跃星辰团队认为，NextStep-1 的探索指向了一个有趣且充满潜力的方向。它证明了在不牺牲连续性的前提下，构建一个简洁、高效的自回归模型是完全可行的。

这只是探索的第一步。阶跃星辰选择将 NextStep-1 开源，衷心期待它能引发更多有价值的讨论，并希望能与社区的研究者一起，继续推动生成技术的演进。

论文链接：https://arxiv.org/abs/2508.10711
GitHub 链接：https://github.com/stepfun-ai/NextStep-1
Hugging Face 模型：https://huggingface.co/collections/stepfun-ai/nextstep-1-689d80238a01322b93b8a3dc

动因探究：背后的技术支撑

整体架构

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。