金磊 发自 凹非寺
量子位 | 公众号 QbitAI
开源周的第三天,DeepSeek把训练推理V3/R1背后的“动力”给亮出来了——
DeepGEMM:一个FP8 GEMM(通用矩阵乘法)库,支持密集(dense)和混合专家(MoE)矩阵乘法运算。

我们先来简单了解一下GEMM。
GEMM,即通用矩阵乘法,是线性代数中的基本运算,是科学计算、机器学习、深度学习等领域中“常客”,也是许多高性能计算任务的核心。
但由于它的计算量往往都比较大,所以GEMM的性能优化是至关重要的一点。
而DeepSeek这次开源的DeepGEMM,依旧是保持了“高性能+低成本”的特性,亮点如下:
高性能:在Hopper架构的GPU上,DeepGEMM能够实现高达1350+FP8 TFLOPS的性能。
简洁性:核心逻辑仅约 300 行代码,但性能却优于专家调优的内核。
即时编译(JIT):采用完全即时编译的方式,这意味着它可以在运行时动态生成优化的代码,从而适应不同的硬件和矩阵大小。
<

最低0.47元/天 解锁文章
25

被折叠的 条评论
为什么被折叠?



