DeepSeek开源专为FP8设计的DeepGEMM,核心内核代码仅300行!

DeepGEMM 是一个支持密集和混合专家(MoE)GEMM的FP8 GEMM库 ,专为DeepSeek-V3/R1模型的训练与推理提供简洁高效的底层支持。它采用CUDA编写,通过轻量级的即时编译(JIT)模块,在运行时编译所有内核,安装过程无需预先编译,为开发者提供了极大的便利。



Stars 数3933
Forks 数304

主要特点

  • 惊人的计算速度:在英伟达Hopper GPU架构上,DeepGEMM最高可达到1350+ FP8 TFLOPS(每秒万亿次浮点运算)的惊人速度,使得大模型在矩阵计算这一核心操作上能够飞速运行,大大缩短训练和推理时间。

  • 极致的简洁性:其核心逻辑仅约300行代码,却在大多数矩阵尺寸上均优于专家调优的内核。没有过多复杂的依赖,就像一本简洁易懂的教程,降低了开发者学习和使用的门槛,即使是初学者也能快速上手,理解其矩阵乘法的优化逻辑。

  • 灵活的布局支持:不仅支持密集布局,还能处理两种MoE布局,这使得它能够适应不同类型的大模型架构,无论是传统的密集模型,还是新兴的混合专家模型,DeepGEMM都能发挥其强大的计算优势。

使用要求

  • Hopper 架构 GPU,sm_90a必须支持

  • Python 3.8 或更高版本

  • CUDA 12.3 或更高版本(官方建议强烈建议使用 12.8 或更高版本)

  • PyTorch 2.1 或更高版本

  • CUTLASS 3.6 或更高版本(可以通过 Git 子模块克隆) 

GitHub:https://github.com/deepseek-ai/DeepGEMM 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值