DeepSeek 开源周第三弹！DeepGEMM：FP8矩阵计算神器！JIT编译+Hopper架构优化，MoE性能飙升

最新推荐文章于 2025-12-10 19:33:02 发布

原创

最新推荐文章于 2025-12-10 19:33:02 发布 · 1.2k 阅读

CC 4.0 BY-SA版权

文章标签：

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🚀 “矩阵革命！DeepSeek开源FP8计算库：300行代码跑赢专家优化，MoE训练提速3倍”

大家好，我是蚝油菜花。当同行还在为万亿参数模型算力发愁时，一群极客用300行代码改写了游戏规则——

你是否正经历这些至暗时刻？

DeepGEMM 的三大破局利器：

现在，百川智能的工程师用它把MoE推理延迟压进毫秒级——点击看如何用5行代码激活这个性能怪兽！

🚀 快速阅读

DeepGEMM 是 DeepSeek 开源的专为 FP8 矩阵乘法设计的高效库，支持普通和混合专家（MoE）分组的 GEMM 操作。

核心功能：支持高效 FP8 矩阵乘法，细粒度缩放和即时编译技术，显著提升计算性能。
技术原理：基于 NVIDIA Hopper 架构的 Tensor Memory Accelerator（TMA）特性，优化数据传输效率，并通过 CUDA 核心双级累加技术解决 FP8 精度问题。

DeepGEMM

DeepGEMM 是 DeepSeek 开源的专为 FP8（8 位浮点）矩阵乘法设计的高效库，支持普通和混合专家（MoE）分组的 GEMM 操作。该库基于即时编译（JIT）技术，无需安装时编译，支持在运行时动态优化，显著提升矩阵运算的性能和精度。

DeepGEMM 专为 NVIDIA Hopper 架构设计，充分利用 Tensor Memory Accelerator（TMA）特性，提升数据传输效率。其核心代码仅约 300 行，易于学习和优化，在多种矩阵形状上均达到或超过专家级优化库的性能。

高效 FP8 矩阵乘法（GEMM）：专为 FP8 矩阵乘法设计，支持细粒度缩放，显著提升矩阵运算的性能和精度。
支持普通和分组 GEMM：适用于常规的矩阵乘法操作，并支持混合专家（MoE）模型中的分组矩阵乘法，优化多专家共享形状的场景。
即时编译（JIT）设计：所有内核在运行时动态编译，无需安装时编译，根据矩阵形状、块大小等参数进行优化，节省寄存器提升性能。
Hopper 架构优化：充分利用 Tensor Memory Accelerator（TMA）特性，包括 TMA 加载、存储、多播和描述符预取，显著提升数据传输效率。
细粒度缩放和双级累加：引入细粒度缩放技术，基于 CUDA 核心的双级累加机制，将 FP8 计算结果提升到更高精度的格式（如 BF16），确保计算精度。
轻量级设计：核心代码简洁，仅约 300 行，易于理解和扩展，避免复杂模板或代数结构的依赖，降低学习和优化的难度。

DeepGEMM-design

即时编译（JIT）技术：所有内核在运行时动态编译，无需安装时编译，根据矩阵形状、块大小等参数进行优化，节省寄存器提升性能。
Tensor Memory Accelerator（TMA）：利用 Hopper 架构的 TMA 特性，提升数据传输效率，包括 TMA 加载、存储、多播和描述符预取。
细粒度缩放和双级累加：通过细粒度缩放技术，结合 CUDA 核心的双级累加机制，解决 FP8 精度不足的问题，确保计算精度。

在运行 DeepGEMM 之前，请确保满足以下环境要求：