FP32 LLM 4字节/参数
FP16 LLM 2字节/参数
INT4 0.5字节/参数
无论原始模型是FP32还是FP16,用INT4量化后都是0.5字节/参数
1B=10亿参数,用FP32模型,10亿字节为1GB,1B为4GB
GPU不仅要容纳模型本身大小,还要存储中间结果梯度梯度等等,需要额外空间20%~50%
1B->4GB->4*1.2~1.5=4.8GB~6GB
Deepseek 14B LLM模型大小计算:
14B-> 140*4/10*1.2~1.5=67.2GB~84GB
参与量化后,14B->140*4/10/8*1.1*1.2~1.5(量化后为原八分之一大小,然后还有一部分源数据,所以乘以1.1)=8.4GB~10.5GB