人工智能【应用篇】- 1.大模型参数（参数数量B，浮点数精度FP，量化Q）&硬件配置和模型参数的关系

原创已于 2025-02-25 17:23:22 修改 · 963 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-02-23 18:13:32 首次发布

大模型通常指的是大语言模型，三个核心参数有：模型的参数数量、浮点数、量化

相当于“大脑的容量”，参数越多，模型越强，所需显存越高。
常见的开源大模型的参数数量（其中B=Billion=10亿）：

LLAMA：1B,3B,8B,70B,405B
通义千问Qwen：0.5B,1,5B,3B,7B,14B,32B,72B
Deepseek: 1.5B，7B，8B，14B, 32B, 70B,671B（俗称满血版）
（这里插播一个知识点，DeepSeek的这些蒸馏模型（也叫学生模型）实际上是对千问的模型做了微调训练，则基于Qwen和Llama系列架构，从教师模型Deepseek-R1中提取推理数据样本，这些数据将用于训练蒸馏模型）

指在模型计算时的数值精度，精度越高（数值越高）计算结果越准确，需要的计算资源越多，推理速度越慢。
该参数是用在模型训练的过程中，训练完成后精度不会再改变。

对大模型权重和激活值进行数值压缩，模型体积变小，可解决运行所需显存，少量牺牲模型的精度，影响模型智商
量化过程用在推理过程，量化后模型体积变小，推理速度变快。
量化过程不是简单的按比例压缩，与模型的原始数值精度（FP）无关，而是将参数映射到更低的比特数

INT8：8位整数量化，将32位/16位浮点数映射到8位整数，量化后 1字节/参数
INT4：4位整数量化，量化后 0.5字节/参数
INT1/2：极端压缩
如：FP32模型是4字节/参数，经过INT4量化后是0.5字节/参数；
FP16模型是2字节/参数，经过INT4量化后也是0.5字节/参数；