Step3：引领多模态智能新纪元，兼顾卓越性能与成本效益-优快云博客

引言

【免费下载链接】step3-fp8 项目地址: https://ai.gitcode.com/hf_mirrors/stepfun-ai/step3-fp8

Step3 作为我们尖端的多模态推理模型，采用混合专家（Mixture-of-Experts）架构，总参数达到 3210 亿，活跃参数为 380 亿。它从端到端进行设计，旨在最大限度降低解码成本，同时在视觉 - 语言推理方面展现顶级性能。通过多矩阵分解注意力（MFA）和注意力 - FFN 解耦（AFD）的协同设计，Step3 在旗舰级和低端硬件上都能保持出色的效率。

如今，它触手可及。今天，我们正式发布： Step3 —— 实现基于事实的多模态推理，具备精准的视觉解读能力并减少幻觉现象让我们一同突破边界——您的创新之旅由此开启。

整体性能

模型	总参数	VLM 基准测试	LLM 基准测试
		MMMU	MATH - Vision	SimpleVQA	Hallusion Bench	ZeroBench (sub)	DYNMATH	AIME25	GPQA - Diamond	LiveCodeBench (202408 - 202505)	HMMT25	CNMO24
开源 VLM
Step3	321B	74.2	64.8	62.2	64.2	23.0	50.1	82.9	73.0	67.1	70.0	83.7
Llama 4 Maverick	400B	73.4	47.2 *	45.4 *	57.1 *	22.8 *	47.1 *	19.2 *	69.8	33.9 *	8.91 *	41.6 *
ERNIE 4.5 - thinking	300B/424B	70.0	47.6 *	59.8	60.0 *	22.5	46.9 *	35.1	76.8 *	38.8	40.5 *	75.5 *
QvQ - 72B - Preview	72B	70.3	35.9	40.3 *	50.8 *	15.9 *	30.7 *	22.7 *	49.5 *	24.1 *	47.3 *	10.9 *
GLM - 4.1V - thinking	9B	68.0	49.4 *	48.1 *	60.8 *	22.8 *	41.9 *	13.3 *	47.4 *	24.2 *	6.7 *	25 *
MiMo - VL	7B	66.7	60.4	48.5 *	59.6 *	18.6 *	45.9	60.0 *	55.5 *	50.1 *	34.6 *	69.9 *
开源推理 LLM
DeepSeek R1 - 0528	671B	-	-	-	-	-	-	87.5	81.0	73.3	79.4	86.9
MiniMax - M1 - 80k	456B	-	-	-	-	-	-	76.9	70.0	65.0	-	-
Qwen3 - 235B - A22B - Thinking	235B	-	-	-	-	-	-	81.5	71.1	65.9	62.5	-
Qwen3 - 235B - A22B - Thinking - 2507	235B	-	-	-	-	-	-	92.3	81.1	-	83.9	-
专有 VLM
o3	-	82.9	72.8 *	59.8 *	60.1 *	25.2 *	58.1 *	88.9	83.3	75.8	70.1 *	86.7 *
Claude Opus 4 (thinking)	-	79.8 *	66.1 *	47.2 *	59.9 *	25.2 *	49.3 *	75.5	79.6	56.6	-	-
Claude Sonnet 4 (thinking)	-	76.9 *	64.6 *	43.7 *	57.0 *	26.1 *	48.1 *	70.5	75.4	55.9	-	-
Gemini 2.5 Pro	-	81.7	73.3	66.8 *	66.8 *	30.8 *	56.3 *	88.0	86.4	71.8	-	-
Gemini 2.5 Flash (thinking)†	-	73.2 *	57.3 *	61.1 *	65.2 *	20.1 *	57.1 *	72.0	82.8	61.9	-	-
Grok 4	-	80.9 *	70.3 *	55.9 *	64.8 *	22.5 *	40.7 *	98.8	87.5	79.3	93.9	85.5 *

注：* 表示使用相同设置复现的性能。 † Gemini 2.5 Flash (thinking) 的评估结果可能低于实际模型性能，尤其是在 MathVision 上，原因是其指令遵循能力不足。

如上图所示，沙滩上延伸的脚印象征着 StepFun 品牌在多模态智能领域不断探索前行的历程，白色的“StepFun”文字则突出了品牌标识。这一视觉元素生动地体现了 Step3 模型作为多模态智能探索道路上重要一步的意义，为读者直观展示了品牌与技术探索主题的紧密联系，帮助读者更好地理解 Step3 模型在行业发展中的定位和价值。

预训练数据

在预训练阶段，Step3 处理了超过 20 万亿个文本标记，涵盖十多种语言，其中 3.7 万亿高质量标记被保留用于退火阶段，同时融入了 4 万亿图文混合标记以助力多模态训练。

要处理如此规模的数据，需要数据工程和数据科学之间的精密协作。原始数据来源于各种网络内容和合作授权的出版商材料，然后通过我们内部的文档解析器进行高效提取和标准化。

为解决噪声和冗余问题，每份文档都要经过多阶段理解框架。一套包含 10 多个专业 NLP 模型的工具评估内容质量（如缺陷、毒性、信息价值），识别高级主题（如 STEM、文学、代码、数学），并将文档分类到 50 多个细粒度领域。之后，我们应用基于 MinHash 的去重技术消除近重复文档，再进行领域感知下采样，确保退水数据集既平衡又多样。总体而言，该管道已使用内部分布式 CPU/GPU 集群处理了超过 1000 亿份源文档。

除此之外，我们还开展大规模案例研究和广泛的消融实验，以优化过滤阈值和采样策略，最终形成了最终的训练“数据配方”。这种严格的筛选过程造就了高质量、多样化的数据集，不仅支持模型实现强大性能，还为我们的多模态数据语料库奠定了坚实基础，后续章节将详细阐述。

预训练模型架构

在设计模型架构时，我们优先优化解码环节，原因主要有以下几点：解码阶段每个标记的成本最高，这是由于其模型 FLOPs 利用率（MFU）较低，尤其是与训练和预填充阶段相比。由于推理模型的能力会随着更长的思维链而增强，提高解码效率并降低成本，能让相同的计算预算支持更深层次的推理，从而带来更强的智能。

Step3 架构的开发遵循模型 - 系统协同设计方法，其中算法创新，特别是在注意力机制和混合专家（MoE）架构方面，与硬件特性和部署约束紧密结合。

MFA：

Step3 效率的核心在于我们新颖的多矩阵分解注意力（MFA）[2]。Step3 降低了 KV 缓存需求和注意力 FLOPs——仅使用 DeepSeek V3 每标记注意力成本的 22%，从而使高级推理的成本大幅降低。

模型	model_dim	Dense ffn_dim	Layer num (MoE Layer)	query_head_num	Head_size	Attention Class	Expert Num - TopK	Dynamic Expert Dim (Share Expert)	Activated Params	Total Params (LLM only)	KV Cache Size (length = 32k)	Attention Computation w/o Linear (FLOPs)	Arithmetic Intensity
Step3	7168	18432	61(56)	64	256	MFA	3in48	5120(5120)	38B	316B	1.02E + 09	1.31E + 11	128
DeepSeekV3	7168	18432	61(58)	128	128	MLA	8in256	2048(2048)	37B	671B	1.15E + 09	5.89E + 11	512
Qwen3 - 235B	4096	12288	94(94)	64	128	GQA - 4	8in128	1536(0)	22B	235B	3.15E + 09	1.01E + 11	32
ERNIE4.5	8192	28672	54(51)	64	128	GQA - 8	8in64	3584(0)	47B	300B	3.60E + 09	5.80E + 10	16
Qwen3 32B	5120	25600	64	64	128	GQA - 8	-	-	32B	-	4.30E + 09	6.87E + 10	16

Step3 拥有 3210 亿参数，但仍可在 8 块 48GB GPU 上运行，处理上下文长度高达 80 万标记（批次×长度）*。这种规模在性能和工程成本之间取得了精心平衡，并借鉴了最先进的训练方法[3, 4]。

这些总标记大小是假设非注意力参数采用 int8 量化，而其他组件（包括 KV 缓存）保持 fp16 或 bf16 精度计算得出的。

多模态

16 倍空间下采样是 Step3 多模态路径的核心。基于 Eva - CLIP 5B[5]，我们的 50 亿参数视觉编码器提取密集图像特征，然后通过两个连续的 2D 卷积层进行压缩，将标记网格缩小到原始大小的十六分之一。生成的视觉标记与文本标记无缝融合后进入大型语言模型（LLM），提供强大且计算高效的表示，为 Step3 的多模态能力奠定基础。

多模态训练分为两个阶段。第一阶段以训练视觉编码器为核心：我们通过对来自配对数据集和多任务数据子集的 3.5 万亿标记进行下一个标记预测，联合优化视觉编码器和一个紧凑的 LLM。在第二阶段，冻结视觉编码器，训练连接器和 LLM 处理完整数据集，总计 1.4 万亿标记。

我们的多模态数据集包含 4 万亿独特标记，主要由配对数据、交错数据和多任务数据组成。配对数据包括开源数据集、网络抓取的图文对和专业领域特定对，所有这些都经过严格的清洁过程，包括相似性过滤、重新平衡和去重。来自网页、论文、书籍和教程的交错数据根据信息密度和图文相关性等指标进行清洁。多任务数据包括 OCR、表格、接地、GUI、视频、VQA、考试问题和推理数据，其中包含大量合成成分。总体而言，中文和英文各占约一半，其余约 5%涵盖其他语言。

后训练

我们的对齐流程分为两个阶段。首先，在精心策划的对话上进行监督微调，这些对话涵盖多模态数学推理、竞争性编程、各种 STEM 主题以及一般非推理任务。接下来，我们执行强化学习（RL）：结构化问题获得密集的、自动验证的奖励，而开放式任务则依赖偏好模型或人类反馈。一个专用的价值网络提供可靠的优势估计，确保训练过程中策略更新的稳定性。

在监督微调期间，每个对话必须解析清晰，处于合理的困惑度范围内，无近重复、过多的标记重复、URL 或图像混乱以及高 n - gram 重叠。一个轻量级质量评分器整合了毒性、事实性和长度等信号，作为样本进入微调数据集前的最终筛选器。此外，我们显著增强了模型的代理能力。具体而言，我们采用反向合成过程生成涉及推理和工具使用的复杂查询，然后使用有向无环图（DAG）、拒绝采样和基于难度的过滤进行优化。

可验证的提示进入 RL 阶段。在这里，一个内部多模态推理模型预测解决方案步骤并分配难度标签，确保训练包含简单、中等和困难案例的平衡组合。这些问题涵盖数学、编程、逻辑和复杂问题解决，范围从基础教育到前沿发展。它们还包括专门为支持代理交互而设计的多模态感知和理解特定任务。

基础设施

大型语言模型在解码过程中面临硬件效率低下的问题，尤其是在长上下文推理任务中。Step3 采用硬件感知的模型 - 系统协同设计方法，量身定制其架构以最小化解码成本。Step3 在两个关键方面进行创新：（1）新颖的多矩阵分解注意力（MFA）机制，在保持高注意力表达能力的同时显著减少 KV 缓存大小和计算量；（2）注意力 - FFN 解耦（AFD），一种将注意力和前馈网络（FFN）层分离为专门子系统的分布式推理系统。这种协同设计实现了前所未有的成本效益：与 DeepSeek - V3 和 Qwen3 MoE 235B 等模型相比，Step3 显著降低了理论解码成本，并且在更长的上下文中收益更大。

Step3 在每个标记激活 380 亿参数（超过 DeepSeek - V3 和 Qwen3 MoE 235B）的同时实现了低成本，表明硬件对齐的注意力算术强度、MoE 稀疏性和 AFD 是成本效益的关键。我们在 DeepSeek - V3 更有利的场景中进行了正面比较。在 Hopper GPU 上的实现，在 50ms TPOT SLA（4K 上下文，FP8，无 MTP）下，解码吞吐量高达每 GPU 每秒 4039 个标记。这高于相同设置下 DeepSeek - V3 的 2324，为 LLM 解码树立了新的帕累托前沿。

近期模型关于激活参数和解码成本的帕累托前沿。深色区域是 GQA 模型的帕累托前沿。

如上文介绍 MFA 时所述，我们现在提出注意力 - FFN 解耦（AFD）的概念。为了高效实现 AFD，我们的系统利用了两项关键技术：

多阶段管道：

由于注意力和 FFN 层在物理上是分离的，因此并行运行它们以最大化整体吞吐量至关重要。如图所示，注意力实例按顺序接收和处理三个输入样本。对于每个处理后的样本，注意力实例将中间计算结果发送到 FFN 实例，并等待相应的输出。整个过程以流方式进行，因此在稳定状态下，双方的 GPU 利用率都能完全饱和，不会浪费 GPU 周期。

注意力 - FFN 解耦（AFD）系统的多阶段管道

高效 GPU 直接通信：

Step3 推理的严格 SLA 要求不仅需要高吞吐量，还需要低延迟。我们开发了 StepMesh，这是一种基于 GPUDirect RDMA 的 AFD 专用通信库，提供超低延迟、零 SM 使用率和灵活的 M - to - N 通信。其接口也友好支持除 GPU 之外的其他异构硬件，我们将持续对此进行改进。StepMesh 已开源，仓库地址为 https://gitcode.com/hf_mirrors/stepfun-ai/step3-fp8 。

StepMesh：用于注意力 - FFN 解耦的 GPU - Direct RDMA 库

性能结果：我们的结果令人鼓舞，显示 Step3 与 DeepSeek - V3 相比，在 token/GPU/sec 方面有显著提升。在 4096 的上下文长度下，我们实现了 4000 的峰值 TGS（Token/Gpu/Second），比 DSv3 报告的数值高出约 70%，且仅使用 1/3 的 Hopper GPU。请注意，TGS 是在严格的每标记 50ms 解码时间下实现的。

模型	平均上下文长度	Hopper GPU 数量	峰值 TGS（token/gpu/sec）
DSv3 - blog[6]	4989	144	1850
DSv3 - profile[7]	4096	128	2324
Step3（bf16 attn）	4096	40（3A2F）	3321
Step3（fp8 attn）	4096	32（2A2F）	4039
Step3（fp8 attn）	8192	48（4A2F）	2643

在 20 tokens/s 解码 SLA 下与 DSv3 报告数值的性能比较。TGS：Tokens/GPU/s。

已知问题

在扩展 Step3 的 MoE 架构过程中，我们观察到一种新的故障模式，我们称之为“死专家”现象。在这种情况下，某些动态专家实际上变得不活跃——不是由于路由不平衡，而是因为它们的输出权重范数在训练过程中消失。这导致在模型前向传递期间贡献可忽略不计，尽管标记仍被路由到它们，这与更常讨论的“路由器崩溃”不同。这种现象背后的根本原因仍在积极研究中。随着研究的进展，我们将分享更多见解。

当前的 Step3 虽然在许多方面功能强大，但在氛围编码方面尚未优化。此外，长时间的多模态推理训练显示出明显的权衡：随着模型的文本推理能力提高，其视觉感知准确性会下降。我们正在积极努力缓解这些限制。

引用

bibtex 复制代码

参考文献

[1] https://github.com/stepfun - ai/Step3/blob/main/Step3 - Sys - Tech - Report.pdf [2] Jingcheng Hu, Houyi Li, Yinmin Zhang, Zili Wang, Shuigeng Zhou, Xiangyu Zhang, and Heung - Yeung Shum. 2025. Multi - matrix Factorization Attention. In Findings of the Association for Computational Linguistics: ACL 2025, pages 25114–25126, Vienna, Austria. Association for Computational Linguistics. [3] Houyi Li, Wenzhen Zheng, Qiufeng Wang, Zhenyu Ding, Haoying Wang, Zili Wang, et al. 2025. Predictable Scale: Part II, Farseer: A Refined Scaling Law in Large Language Models. arXiv preprint arXiv:2506.10972. [4] Houyi Li, Wenzhen Zheng, Qiufeng Wang, Hanshan Zhang, Zili Wang, et al. 2025. Predictable Scale: Part I, Step Law — Optimal Hyperparameter Scaling Law in Large Language Model Pretraining. arXiv preprint arXiv:2503.04715. [5] Quan Sun, Yuxin Fang, Led

【免费下载链接】step3-fp8 项目地址: https://ai.gitcode.com/hf_mirrors/stepfun-ai/step3-fp8

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考