DeepSeek开源第三弹:V3/R1训练推理关键秘籍,核心代码仅300行

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

开源周的第三天,DeepSeek把训练推理V3/R1背后的“动力”给亮出来了——

DeepGEMM:一个FP8 GEMM(通用矩阵乘法)库,支持密集(dense)和混合专家(MoE)矩阵乘法运算。

16595bff81385d142fc13c1a88c4d7e0.png

我们先来简单了解一下GEMM。

GEMM,即通用矩阵乘法,是线性代数中的基本运算,是科学计算、机器学习、深度学习等领域中“常客”,也是许多高性能计算任务的核心。

但由于它的计算量往往都比较大,所以GEMM的性能优化是至关重要的一点。

而DeepSeek这次开源的DeepGEMM,依旧是保持了“高性能+低成本”的特性,亮点如下:

  • 高性能:在Hopper架构的GPU上,DeepGEMM能够实现高达1350+FP8 TFLOPS的性能。

  • 简洁性:核心逻辑仅约 300 行代码,但性能却优于专家调优的内核。

  • 即时编译(JIT):采用完全即时编译的方式,这意味着它可以在运行时动态生成优化的代码,从而适应不同的硬件和矩阵大小。

  • 无重依赖:这个库设计得非常轻量级,没有复杂的依赖关系,可以让部署和使用变得简单。

  • 支持多种矩阵布局:支持密集矩阵布局和两种 MoE 布局,这使得它能够适应不同的应用场景,包括但不限于深度学习中的混合专家模型。

  • <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值