DeepGEMM 是一个支持密集和混合专家(MoE)GEMM的FP8 GEMM库 ,专为DeepSeek-V3/R1模型的训练与推理提供简洁高效的底层支持。它采用CUDA编写,通过轻量级的即时编译(JIT)模块,在运行时编译所有内核,安装过程无需预先编译,为开发者提供了极大的便利。
![]() | 3933 |
![]() | 304 |
主要特点
-
惊人的计算速度:在英伟达Hopper GPU架构上,DeepGEMM最高可达到1350+ FP8 TFLOPS(每秒万亿次浮点运算)的惊人速度,使得大模型在矩阵计算这一核心操作上能够飞速运行,大大缩短训练和推理时间。
-
极致的简洁性:其核心逻辑仅约300行代码,却在大多数矩阵尺寸上均优于专家调优的内核。没有过多复杂的依赖,就像一本简洁易懂的教程,降低了开发者学习和使用的门槛,即使是初学者也能快速上手,理解其矩阵乘法的优化逻辑。
-
灵活的布局支持:不仅支持密集布局,还能处理两种MoE布局,这使得它能够适应不同类型的大模型架构,无论是传统的密集模型,还是新兴的混合专家模型,DeepGEMM都能发挥其强大的计算优势。
使用要求
-
Hopper 架构 GPU,sm_90a必须支持
-
Python 3.8 或更高版本
-
CUDA 12.3 或更高版本(官方建议强烈建议使用 12.8 或更高版本)
-
PyTorch 2.1 或更高版本
-
CUTLASS 3.6 或更高版本(可以通过 Git 子模块克隆)