DeepSeek开源专为FP8设计的DeepGEMM，核心内核代码仅300行！-优快云博客

本文链接：https://blog.youkuaiyun.com/coderroad/article/details/145908285

DeepGEMM 是一个支持密集和混合专家（MoE）GEMM的FP8 GEMM库，专为DeepSeek-V3/R1模型的训练与推理提供简洁高效的底层支持。它采用CUDA编写，通过轻量级的即时编译（JIT）模块，在运行时编译所有内核，安装过程无需预先编译，为开发者提供了极大的便利。

Stars 数	3933
Forks 数	304

惊人的计算速度：在英伟达Hopper GPU架构上，DeepGEMM最高可达到1350+ FP8 TFLOPS（每秒万亿次浮点运算）的惊人速度，使得大模型在矩阵计算这一核心操作上能够飞速运行，大大缩短训练和推理时间。
极致的简洁性：其核心逻辑仅约300行代码，却在大多数矩阵尺寸上均优于专家调优的内核。没有过多复杂的依赖，就像一本简洁易懂的教程，降低了开发者学习和使用的门槛，即使是初学者也能快速上手，理解其矩阵乘法的优化逻辑。
灵活的布局支持：不仅支持密集布局，还能处理两种MoE布局，这使得它能够适应不同类型的大模型架构，无论是传统的密集模型，还是新兴的混合专家模型，DeepGEMM都能发挥其强大的计算优势。