大模型基础参数知识点总结,持续更新......

1.量化参数

大模型有大量的参数,每个参数都有参数值,我们假设某个参数值为1.5678,那么要想减小存储所占的内存,需要进行四舍五入,比如约等于1.57,甚至约等于整数1,量化正是基于这样的思想。量化的四种格式:

FP32每个参数用单精度浮点数表示,占32bit,即4字节
FP16每个参数用半精度浮点数表示,占16bit,即2字节
Int8每个参数用8位整数表示,占8bit,即1字节
Int4每个参数用4位整数表示,占4bit,即0.5字节

例如Qwen2.5-0.5B模型,共有5亿参数量,那么采用FP32将占用20亿字节,即2G显存,向下每种格式依次减小一半,如果采用Int4格式即占用0.25G显存,当然在实际应用中应该大于这个值。

2.推理参数

temprature

该参数越大,token生成的概率越平滑,输出越多样;反之,生成的概率越尖锐,输出越固定

top_k

生成输出时,只考虑概率最高的k个 token

top_p

生成输出时,只考虑概率累计和为p的token

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值