5月14日,人工智能领域再度迎来突破性进展,阶跃星辰正式对外发布并开源了其最新研发的3D大模型——Step1X-3D。这一成果标志着阶跃星辰在图像、视频、语音、音乐等多模态领域之后,又在3D内容生成这一关键赛道实现了重大突破。Step1X-3D模型总参数量高达4.8B,其中几何模块为1.3B,纹理模块为3.5B。凭借扎实的数据基础与先进的3D原生架构,该模型能够生成高保真、可控的3D内容。阶跃星辰表示,Step1X-3D的目标不仅是实现视觉上的"好看",更追求"好用"与"可控",致力于为3D内容创作提供强大而可靠的技术引擎。
【免费下载链接】Step1X-3D 项目地址: https://ai.gitcode.com/StepFun/Step1X-3D
为助力3D生成社区的发展,阶跃星辰此次公布了完整的数据清洗策略、数据预处理策略,并开源了包含800K高质量3D资产、3D VAE、3D geometry Diffusion以及texture Diffusion的全链路训练代码。感兴趣的开发者与研究人员可通过以下渠道获取相关资源:Gitcode:https://gitcode.com/StepFun/Step1X-3D,HuggingFace:https://huggingface.co/stepfun-ai/Step1X-3D,ModelScope:https://www.modelscope.cn/models/stepfun-ai/Step1X-3D,技术报告:https://arxiv.org/pdf/2505.07747。
Step1X-3D模型在研发过程中,着重针对3D内容生成领域的关键挑战进行了探索与突破,在数据质量、生成效果以及可控性等多个方面进行了创新性实践,展现出卓越的技术实力与应用潜力。
在3D内容生成领域,优质的数据是构建高性能模型的基石。Step1X-3D团队深知这一点,为此对超过500万的原始数据进行了严格的筛选与精细化处理,最终建立起一个包含200万高质量、标准化训练样本的数据库。这一举措有效缓解了行业内长期存在的数据稀缺与质量参差不齐的痛点,为模型的高性能表现奠定了坚实基础。
如上图所示,展示了Step1X-3D模型生成的多种高保真3D模型实例,包括卡通角色、日常用品和小型建筑等。这些实例直观地展现了该模型强大的3D内容生成能力和细节还原精度,让读者能够清晰感受到模型在实际应用中的表现。
此外,Step1X-3D还通过采用增强型网格-SDF转换技术等一系列先进方法,从数据源头保障了模型学习的精准性和最终生成的高效性。这使得水密几何转换成功率提升了20%,同时也赋予了Step1X-3D强大的泛化能力和对细节的捕捉能力,能够更好地适应不同场景和需求下的3D内容生成任务。
为了从根本上提升3D内容的生成质量,Step1X-3D采用了先进的3D原生两阶段架构,将几何与纹理表征进行解耦处理。这一创新设计确保了生成的3D内容不仅具有精美的视觉外观,更拥有结构可靠、可供下游应用直接使用的"骨架",有效规避了几何失真问题,保证了生成内容的准确性、真实感与一致性。
几何生成模型基于FLUX MMDiT结构和Rectified flow算法,直接对3D表示生成进行建模。在几何塑形方面,核心在于采用了为3D特性深度优化的创新混合VAE-DiT架构。该架构负责生成TSDF内部表示,确保产出的3D模型结构完整、无表面缺失。同时,通过引入锐利边缘采样(Sharp Edge Sampling)等技术,能够精准捕捉并还原物体的丰富几何细节,无论是硬边结构还是曲面结构都能得到出色的呈现。
纹理生成模型则基于强大的SD-XL模型进行深度定制与优化。通过几何条件(利用法线与位置信息)的精准引导,以及潜在空间多视图同步技术,实现了与几何模块的高效协同。这一协同机制确保生成的纹理不仅色彩饱满、质感生动逼真,更能跨越多视图保持高度一致,与复杂三维表面精密贴合,有效避免了常见的扭曲与接缝问题,极大地提升了3D模型的整体质量。
在3D内容生成过程中,可控性与易用性是用户极为关注的方面。Step1X-3D在这两个方面进行了显著提升,其关键在于VAE-Diffusion整体架构在设计上与主流2D生成模型(如Stable Diffusion)保持了高度一致性。这一设计使得Step1X-3D能够无缝引入并应用成熟的2D控制技术,例如轻量化的LoRA微调。
如上图所示,呈现了Step1X-3D的3D资产数据筛选流程。该图展示了从5000多个Web捕获的3D资产中,经过单纹理、单表面、小物体等多步骤过滤后,得到2000多个高质量3D资产的过程。这一示意图清晰地揭示了Step1X-3D高质量数据背后的严格筛选机制,让读者了解到好数据是好模型的基础,以及阶跃星辰在数据处理方面所做的努力。
因此,用户可以对生成3D资产的对称性、表面细节(如锋利度、平滑度)等多种属性进行直观、精细的调控,让创作过程更加便捷,生成结果更能精准地符合用户意图。这种高度的可控性大大降低了3D内容创作的门槛,使得更多用户能够轻松上手,创作出符合自身需求的高质量3D内容。
为了客观评估Step1X-3D的实际效果,阶跃星辰通过一个自建的综合测试集(包含110个多样化测试用例),对该模型进行了严格的定量与定性评估,并与多款主流模型进行了全面对比。评估结果显示,在自动评估中,Step1X-3D在多项关键维度上均表现出色。特别是在衡量内容与输入语义一致性的核心指标CLIP-Score上,Step1X-3D取得了当前所有对比模型中的最高分,充分证明了其在3D内容生成领域的领先地位,为开源社区提供了极具竞争力的3D生成方案。
开发者与用户可通过Online Demo:https://huggingface.co/spaces/stepfun-ai/Step1X-3D亲身体验Step1X-3D模型的强大功能。
Step1X-3D的开源发布,无疑为3D内容生成领域注入了新的活力。其在数据、生成质量与可控性上的创新实践,不仅解决了行业面临的诸多关键挑战,更为广大开发者与研究人员提供了宝贵的资源与技术支持。随着3D技术的不断发展与普及,Step1X-3D有望在游戏开发、影视制作、工业设计、虚拟现实等众多领域发挥重要作用,推动相关行业的创新与发展。未来,我们有理由相信,在Step1X-3D等先进技术的引领下,3D内容生成将变得更加高效、便捷、高质量,为人们带来更加丰富多样的数字体验。
【免费下载链接】Step1X-3D 项目地址: https://ai.gitcode.com/StepFun/Step1X-3D
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



