金磊 发自 凹非寺
量子位 | 公众号 QbitAI
开源周的第三天,DeepSeek把训练推理V3/R1背后的“动力”给亮出来了——
DeepGEMM:一个FP8 GEMM(通用矩阵乘法)库,支持密集(dense)和混合专家(MoE)矩阵乘法运算。
我们先来简单了解一下GEMM。
GEMM,即通用矩阵乘法,是线性代数中的基本运算,是科学计算、机器学习、深度学习等领域中“常客”,也是许多高性能计算任务的核心。
但由于它的计算量往往都比较大,所以GEMM的性能优化是至关重要的一点。
而DeepSeek这次开源的DeepGEMM,依旧是保持了“高性能+低成本”的特性,亮点如下:
高性能:在Hopper架构的GPU上,DeepGEMM能够实现高达1350+FP8 TFLOPS的性能。
简洁性:核心逻辑仅约 300 行代码,但性能却优于专家调优的内核。
即时编译(JIT):采用完全即时编译的方式,这意味着它可以在运行时动态生成优化的代码,从而适应不同的硬件和矩阵大小。
无重依赖:这个库设计得非常轻量级,没有复杂的依赖关系,可以让部署和使用变得简单。
支持多种矩阵布局:支持密集矩阵布局和两种 MoE 布局,这使得它能够适应不同的应用场景,包括但不限于深度学习中的混合专家模型。
<