1.量化参数
大模型有大量的参数,每个参数都有参数值,我们假设某个参数值为1.5678,那么要想减小存储所占的内存,需要进行四舍五入,比如约等于1.57,甚至约等于整数1,量化正是基于这样的思想。量化的四种格式:
FP32 | 每个参数用单精度浮点数表示,占32bit,即4字节 |
FP16 | 每个参数用半精度浮点数表示,占16bit,即2字节 |
Int8 | 每个参数用8位整数表示,占8bit,即1字节 |
Int4 | 每个参数用4位整数表示,占4bit,即0.5字节 |
例如Qwen2.5-0.5B模型,共有5亿参数量,那么采用FP32将占用20亿字节,即2G显存,向下每种格式依次减小一半,如果采用Int4格式即占用0.25G显存,当然在实际应用中应该大于这个值。
2.推理参数
temprature | 该参数越大,token生成的概率越平滑,输出越多样;反之,生成的概率越尖锐,输出越固定 |
top_k | 生成输出时,只考虑概率最高的k个 token |
top_p | 生成输出时,只考虑概率累计和为p的token |