阶跃星辰开源3210亿参数大模型Step3:MoE架构实现性能与成本的极致平衡

近日,人工智能领域再迎新突破——阶跃星辰团队正式宣布开源其最新一代基础大模型Step3。这款模型专为追求性能与成本最优解的企业及开发者打造,聚焦推理时代的实际应用需求,致力于成为当前最适合落地部署的大模型。开发者可通过Gitcode(仓库地址:https://gitcode.com/hf_mirrors/stepfun-ai/step3-fp8)、Hugging Face及魔搭ModelScope三大平台获取体验,开启高效AI应用开发之旅。

【免费下载链接】step3-fp8 【免费下载链接】step3-fp8 项目地址: https://ai.gitcode.com/hf_mirrors/stepfun-ai/step3-fp8

Step3采用先进的混合专家(MoE)架构,总参数量高达3210亿,而实际激活参数量为380亿,实现了模型能力与资源消耗的精准配比。该模型不仅在视觉感知与复杂推理任务中表现卓越,更能轻松应对跨领域知识理解、数学与视觉信息交叉分析以及日常生活中的各类视觉分析难题。通过自研的MFA(Multi-matrix Factorization Attention,多矩阵分解注意力)机制与AFD(Attention-FFN Disaggregation,注意力-前馈网络解耦)优化方案,Step3在各类主流芯片上的推理效率得到显著提升。值得关注的是,为保障部署体验,团队同步开源了面向AFD场景的StepMesh通信库,提供跨硬件的标准化部署接口,确保关键性能指标在实际服务中稳定复现。

在核心结构设计上,Step3创新性地采用自研MFA注意力机制,通过矩阵分解技术有效降低注意力计算过程中的KV缓存开销与算力消耗。在不损失模型性能的前提下,该方案成功实现了资源利用率与推理效率的动态平衡,使得模型能够在8×48GB显存配置的显卡集群上完成大吞吐量推理任务,具备真实生产环境部署的可行性。多模态能力方面,Step3集成了50亿参数规模的视觉编码器(Vision Encoder),并通过双层2D卷积网络对视觉特征进行降采样处理,将视觉token数量压缩至原始规模的1/16,大幅减轻上下文长度压力,进一步提升推理效率。模型训练采用两阶段策略:第一阶段重点强化编码器的视觉感知能力,第二阶段则冻结视觉编码器参数,仅优化语言主干与跨模态连接层,有效减少梯度干扰问题。训练语料涵盖Pair格式数据、Interleave interleaved数据及多任务混合数据,在数据清洗环节引入相似度过滤、动态重采样与任务比例控制技术,显著提升图文协同理解质量与训练过程的鲁棒性。

系统架构层面,Step3团队重构了解码流程,重点解决传统架构中Attention与FFN混合执行导致的推理瓶颈及计算资源不匹配问题。为此,团队研发了高性能AFD(Attention-FFN Disaggregation)解耦方案,将两类计算任务分离为独立子系统,并通过多级流水线并行调度机制,使整体吞吐效率得到质的飞跃。针对解耦后子系统间高频数据传输需求,团队同步开发了StepMesh通信库,基于GPU Direct RDMA技术实现跨卡低延迟、高带宽数据传输,同时具备不占用GPU计算资源、适配多类异构硬件等核心优势。实测数据显示,在50ms单次解码的服务质量(SLA)要求下,Step3在Hopper架构GPU上的吞吐量达到4039token/gpu/s,显著高于同类配置下DeepSeek V3的2324token/gpu/s,且在特定硬件环境与长文本处理场景中,性能增益可进一步放大至300%。

图片展示了一张VLM与LLM基准测试对比表格,呈现了Step 3等模型在总参数量及MMMU、MATH-Vision等多项技术评测指标的性能表现,用于对比开源与闭源模型的能力差异。 如上图所示,该表格横向对比了Step3与国内外主流开源及闭源模型在总参数量、MMMU、MathVision等关键评测集上的性能表现。这一对比清晰展现了Step3在参数量与任务性能之间的最优平衡,为开发者选择适合推理部署的模型提供了客观量化依据。

Step3在多模态与专业领域评测中表现突出,先后通过MMMU、MathVision、SimpleVQA、AIME2025、GPQA-Diamond、LiveCodeBench(2024.08-2025.05)等权威评测集验证,在同类型开源模型中成绩位居行业前列。典型应用场景中,在"商务宴请座次安排"任务中,Step3能够精准识别宴会场景图像结构,自动解析商务礼仪规则、人物角色关系与空间布局逻辑,结合中文社交礼仪规范推理出完整12人角色分布方案,最终输出角色明确、位置清晰、符合礼仪规范的"主宾-主陪"全局排座表,并通过表格与ASCII图示直观呈现。在"餐饮卡路里计算"任务中,模型能够准确识别复杂餐饮小票信息,自动完成菜品分类与热量匹配,最终精确估算出2人餐食总热量5710大卡(人均2855大卡),整个推理过程从原始图像数据到结论解释形成完整逻辑闭环。

【免费下载链接】step3-fp8 【免费下载链接】step3-fp8 项目地址: https://ai.gitcode.com/hf_mirrors/stepfun-ai/step3-fp8

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值