
大模型量化
执笔论英雄
这个作者很懒,什么都没留下…
展开
-
【大模型量化】QuaRot
我们提出QuaRot(一种基于旋转的新型量化方案),其能够对LLMs进行端到端量化,包括所有权重、激活值和KV缓存均压缩至4位。QuaRot通过旋转LLMs的方式,在不改变输出的前提下从隐藏状态中移除离群值,从而简化量化过程。该计算不变性被应用于LLM的隐藏状态(残差)、前馈组件的激活值、注意力机制的部分结构以及KV缓存。最终得到的量化模型中,所有矩阵乘法均以4位精度执行,且无需任何通道以更高精度保留。原创 2025-05-30 15:28:56 · 620 阅读 · 0 评论 -
[大模型学习量化】 flatquant
目前 各类旋转/可逆矩阵对量化参数进行预变换(QuaRot、SpinQuant、QServe、以及FlatQuant。大模型后量化算法迭代迅速,早期进行线性层缩放(AWQ/SmoothQuant),设计预量化变换 量化、 及低精度矩阵相乘的融合算子也尤为重要。原创 2025-05-30 14:58:34 · 161 阅读 · 0 评论 -
【大模型量化】FP8 学习
https://mp.weixin.qq.com/s/8apmNu4b0vc5op0CoX_Jiw原创 2025-02-25 18:13:31 · 126 阅读 · 0 评论 -
【大模型量化】GPTQ量化模型
总之,GPTQ量化模型在推理时主要通过加载量化模型、准备输入数据、进行推理计算和处理结果来实现高效的推理。由于硬件支持int8和fp16的混合运算,因此可以直接在不需要反量化的情况下进行计算,从而提高推理速度。算:在推理阶段,模型的权重和输入数据将进行计算。在GPTQ中,权重是int8格式的,而输入数据通常是fp16或bf16格式的。推理阶段数据处理:在推理阶段,输入数据可能需要进行预处理或归一化,以确保与训练时的数据分布一致。这可能包括对输入数据进行缩放或标准化,以适应量化模型的输入范围。原创 2024-12-17 11:43:54 · 744 阅读 · 0 评论