大模型基础参数知识点总结，持续更新......

本文链接：https://blog.youkuaiyun.com/xuptyjs/article/details/144268412

1.量化参数

大模型有大量的参数，每个参数都有参数值，我们假设某个参数值为1.5678，那么要想减小存储所占的内存，需要进行四舍五入，比如约等于1.57，甚至约等于整数1，量化正是基于这样的思想。量化的四种格式：

例如Qwen2.5-0.5B模型，共有5亿参数量，那么采用FP32将占用20亿字节，即2G显存，向下每种格式依次减小一半，如果采用Int4格式即占用0.25G显存，当然在实际应用中应该大于这个值。

temprature	该参数越大，token生成的概率越平滑，输出越多样；反之，生成的概率越尖锐，输出越固定
top_k	生成输出时，只考虑概率最高的k个 token
top_p	生成输出时，只考虑概率累计和为p的token