一句话定义量化是什么?
量化是指将模型中原本以高精度表示的权重和激活值映射为低比特离散值的过程,以在几乎不损失模型性能的前提下,大幅降低计算与存储开销。
量化该怎么做?
量化并不是简单地“压缩数字精度”,它的核心在于理解与建模数据的真实分布。
首先,需要对模型中待量化张量(如权重、激活、梯度等)的分布进行精细分析。通过统计它们的均值、方差、峰度、长尾特性等指标,可以确定不同层、不同通道的数值范围和动态特征。
在此基础上,选择合适的量化策略与尺度计算方式,例如对称量化或非对称量化,并结合最优零点校准,以最小化量化误差。
随后,配合具体的量化算法,完成权重或激活值的离散化映射。
值得强调的是,数据分布分析是量化成功的关键:
错误或片面的样本统计将直接导致量化精度下降,尤其在大模型中,不同层的数值尺度差异巨大,必须采用层级自适应或通道级量化策略。
主流大模型量化技术:从 PTQ 到 QAT
量化大体可分为两类方法:
- 后训练量化(Post-Training Quantization,PTQ)
- 量化感知训练(Quantization-Aware Training,QAT)
两者的区别在于:PTQ在模型训练完成后直接进行量化校准,成本低但对分布敏感;而QAT在训练阶段就将量化噪声引入前向与反向计算中,使模型主动学习到量化的约束,精度更高但训练开销较大。
一. Post-Training Quantization(PTQ)
PTQ 不依赖原始训练过程,只需对模型进行少量样本的统计与校准即可完成。
核心思想是:通过分析权重和激活的统计分布,寻找一个最优的量化映射,使离散化误差最小化。
在大模型时代,PTQ 的研究重点已经从“线性缩放”演进为“误差感知的分层量化”,典型代表包括:
- ZeroQuant
微软提出的端到端自动化量化框架,通过统计建模与量化感知校准相结合,在无训练数据或少量数据的条件下实现模型高精度 INT8/INT4 量化。
通过对GPT-3(350M)在特定数据集上的权重分布(右)与激活分布(左)进行分析,可以发现:模型参数在不同层级间的分布较为均匀,数值范围集中(0.0–0.8),层间差异较小;相比之下,模型激活在不同层级间的分布则较为发散,数值跨度较大(0–50),层间差异显著。
解决这个问题的一种方法是对权重矩阵使用channel-wise量化,对激活矩阵使用token-wise量化。
2.LLM.int8()
由 Hugging Face 提出,采用逐通道动态量化与激活分解策略,将 Transformer 中的权重和激活拆分为高方差与低方差两部分,仅对低方差部分执行 INT8 量化,从而在保持计算效率的同时避免数值溢出。
通过上图可以分析得到:
作者发现激活中存在一些离群值,它们的绝对值明显更大;并且这些离群值分布在少量的几个特征中,称为离群特征。
-
离群特征在 Transformer 模型中普遍存在,且其出现与模型规模和性能密切相关。
-
模型规模增大会导致异常特征突然出现,而性能提升(困惑度下降)则伴随离群特征的逐渐增加。
-
量化失败的直接原因:离群特征幅度的突然增加是导致模型量化失败的关键因素。
不论是 token-wise(针对激活 x 而言:每行对应一个量化系数) 还是 channel-wise (针对权重 w 而言:每列对应一个量化系数)量化,都会受到这些离群值的很大影响。既然只有少量的特征包含离群值,LLM.int8()的思路是把这些特征拿出来单独计算,只对剩余特征做量化。
LLM.int8() 通过三个步骤完成矩阵乘法计算:
-
从输入的隐含状态中,按列提取异常值 (离群特征,即大于某个阈值的值)。
-
对离群特征进行 FP16 矩阵运算,对非离群特征进行量化,做 INT8 矩阵运算;
-
反量化非离群值的矩阵乘结果,并与离群值矩阵乘结果相加,获得最终的 FP16 结果。
-
SmoothQuant
阿里提出的一种“平滑激活分布”的 PTQ 方法,核心思想是通过引入一个可学习的平滑因子,将量化难度从激活侧转移到权重侧,从而减轻激活值在不同通道间的动态范围差异。
通过上图可以了解到:
权重很容易量化,而激活则较难量化,因此,SmoothQuant 引入平滑因子s来平滑激活异常值,通过数学上等效的变换将量化难度从激活转移到权重上。
常规的矩阵乘如下:
SmoothQuant 对激活进行 smooth,按通道除以 smoothing factor。为了保持线性层数学上的等价性,以相反的方式对权重进行对应调整。SmoothQuant 的矩阵乘如下:
其中:
在 channel 维度(列)上每个元素除以 ;
则在每行上每个元素乘以 。这样 在数学上是完全相等的,平滑因子 的计算公式下面会讲述。
将量化难度从激活迁移到权重
为了减小量化误差,可以为所有通道增加有效量化比特数。当所有通道都具有相同的最大值时,有效量化比特数将达到最大。
一种做法是令 ,其中 表示第 个输入通道。各通道通过除以 后,激活通道将具有相同的最大值,此时激活值较容易量化。然而,这种做法会将激活的量化难度完全转移至权重,导致较大的精度损失。
另一种做法是令 ,这样权重通道将具有相同的最大值,权重易于量化,但激活的量化误差会显著增大。
因此,我们需要在权重和激活之间平衡量化难度,使两者都较容易被量化。本文作者通过引入一个超参数 (迁移强度),来控制从激活值迁移到权重值的难度比例。合适的迁移强度值能够使权重和激活都易于量化。 过大时,权重难以量化; 过小时,激活难以量化。
通过实验发现,针对 OPT 和 BLOOM 模型, =0.5 是一个很好的平衡点;针对 GLM-130B,该模型有 30%的异常值,激活值量化难度更大,可以选择
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2025 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要 《AI大模型入门+进阶学习资源包》,下方扫码获取~

① 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)

② 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

③ 大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

以上资料如何领取?

为什么大家都在学大模型?
最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!


这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


以上全套大模型资料如何领取?

961

被折叠的 条评论
为什么被折叠?



