7b = 7billion = 7*10^9 个参数(1billion就是10亿就是9个0)
fp32精度,一个参数4byte,1G=10^9 byte, 所以 7b就占7*4GB。
fp16精度,一个参数2byte, 7b就占7*2GB
int8精度,一个参数1byte, 7b就占7*1GB
混合精度(fp16/32), 存储fp16精度+fp32精度 = 14GB +28GB = 42GB
此外,训练时占内存的还有梯度(和模型参数本身大小一样),优化器(如使用adam,是模型本身大小*2,因为要计算动量和方差)
本文探讨了不同精度(fp32、fp16、int8)下模型参数的存储需求,以及混合精度对内存的影响。同时提及训练过程中梯度和优化器(如Adam)对内存占用的额外考虑。
1348

被折叠的 条评论
为什么被折叠?



