简单聊聊Deepseek V3的FP8训练

简单聊聊Deepseek V3的FP8训练

作者企鹅火烈鸟🦩

作者:企鹅火烈鸟🦩

全文约 2400 字,预计阅读时间 6 分钟

引子

Deepseek V3的报告在网上放出之后,在知乎也看了很多训练分析和推理的文章。前段时间也转发了一位大佬的pp分析和通信文章,正好赶上前两天没空。29号凌晨才把文章看完,顺着这股劲儿写一些Deepseek V3里fp8训练。若有错误请大家指正,也希望和大佬们一起讨论。

FP8量化是一种新兴的低精度数值表示方法,通过将FP16或FP32降低到8位浮点数,可以显著减少模型的内存占用(相比FP32降低75%)和计算开销,同时提升推理速度和能效比。它提供E4M3和E5M2两种格式以平衡精度和范围,在保证模型性能的前提下,尤其适合大规模AI模型的训练和部署加速。不过要充分发挥FP8的优势,需要特定硬件支持,如NVIDIA Hopper架构GPU。

整体一览

从Deepseek V3的技术报告里写到,它在Embedding、Attention、gating(MoE路由)、Norm上是用的原始精度(BF16 or FP32,某些gating操作会上FP32吧)。也就是说会做FP8的位置基本就在MoE上的MLP和Attention前后的MLP。

图片

技术报告里讲到,会对FP8训练进行量化。这也是常规操作了,NV的一次OpenDay也讲了关于FP8训练时的量化。

NVIDIA英伟达 - FP8 训练的挑战及最佳实践:https://www.bilibili.com/video/BV1tM4m117eL/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值