大模型涉及到的精度是啥？FP32、TF32、FP16、BF16、FP8、FP4、NF4、INT8区别

最新推荐文章于 2025-10-22 13:58:59 发布

原创

最新推荐文章于 2025-10-22 13:58:59 发布 · 1.7w 阅读

·

37

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#算法 #transformer

目录

整体介绍
什么是精度
为什么要有这么多精度
不同的浮点数精度
1. FP精度
2. 特殊精度

大模型的训练和推理，经常涉及到精度的概念，种类很多，而且同等精度级别下，还分不同格式，网上没看到一篇能够介绍全面的，这里梳理总结一份全面的介绍。

整体介绍

浮点数精度：双精度（FP64）、单精度（FP32、TF32）、半精度（FP16、BF16）、8位精度（FP8）、4位精度（FP4、NF4）

量化精度：INT8、INT4 （也有INT3/INT5/INT6的）

另外，实际使用场景中，还有多精度和混合精度的概念

什么是精度

假设你每秒钟赚到的钱是1块钱，那一个月的收入是160602430=216000，如果每秒钟赚到1块1呢，那一个月的收入是237600，就一个1毛钱的小数点，让你月收入少了1万多，这就是精度不同导致的差异。

另外一个典型的例子是π，常用3.14表示，但是如果要更高精度，小数点后面可以有无数位。

当然，这些都是数学里面的精度概念，在计算机里面，浮点数的精度，跟存储方式有关，占用的bit越多，精度越高。

为什么要有这么多精度

因为成本和准确度。

都知道精度高肯定更准确，但是也会带来更高的计算和存储成本。较低的精度会降低计算精度，但可以提高计算效率和性能。所以多种不同精度，可以让你在不同情况下选择最适合的一种。

双精度比单精度表达的更精确，但是存储占用多一倍，计算耗时也更高，如果单精度足够，就没必

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。