
量化
文章平均质量分 88
量化技术介绍
cyz0202
这个作者很懒,什么都没留下…
展开
-
I-BERT
I-BERT原创 2022-06-20 16:18:37 · 802 阅读 · 0 评论 -
BN折叠及其量化
BN折叠及其量化原创 2022-06-16 09:01:13 · 1173 阅读 · 0 评论 -
Intel Distiller工具包-量化实现3
本系列文章Intel Distiller工具包-量化实现1Intel Distiller工具包-量化实现2Intel Distiller工具包-量化实现3回顾上一篇文章中介绍了Distiller及Quantizer基类,基类定义了重要的变量,如replacement_factory(dict,用于记录待量化module对应的wrapper);此外定义了量化流程,包括 预处理(BN折叠,激活优化等)、量化模块替换、后处理 等主要步骤; 本文介绍继承自Quantizer的子类量化...原创 2022-05-31 16:35:37 · 276 阅读 · 0 评论 -
Intel Distiller工具包-量化实现2
本系列文章Intel Distiller工具包-量化实现1https://blog.youkuaiyun.com/cyz0202/article/details/125030673回顾上一篇文章中介绍了Distiller及Quantizer基类,基类定义了重要的变量,如replacement_factory(dict,用于记录待量化module对应的wrapper);此外定义了量化流程,包括 预处理(BN折叠,激活优化等)、量化模块替换、后处理 等主要步骤; 本文介绍继承自Quantizer的子类量化..原创 2022-05-31 01:03:23 · 427 阅读 · 2 评论 -
Intel Distiller工具包-量化实现1
DistillerDistiller是Intel2019年左右开发的一个原创 2022-05-29 23:58:18 · 627 阅读 · 3 评论 -
BMINF的后训练量化实现
BMINFBMINF是清华大学开发的大模型推理工具,目前主要针对该团队的CPM系列模型做推断优化。该工具实现了内存/显存调度优化,利用cupy/cuda实现了后训练量化 等功能,本文记录分析该工具的后训练量化实现。主要关注cupy操作cuda实现量化的部分,涉及量化的原理可能不会做详细介绍,需要读者查阅其他资料;实现代码分析1量化部分的入口代码主要是在 tools/migrate_xxx.py,这里以 tools/migrate_cpm2.py为例;main函数build_mo原创 2022-05-27 15:52:48 · 746 阅读 · 0 评论 -
nvidia混合精度训练原理
参考自 nvidia-mixed-precision-trainingMixed Precision Training背景:减少内存消耗、提高训练、推断速度基本思想:大部分相对不重要的计算使用FP16,少量重要的计算使用FP32实际实现主要考虑两大部分:哪些部分使用FP16针对FP16可能带来的性能衰退做相应优化,主要是添加 loss scale一个例子展示效果半精度格式IEEE754规定16bits半精度浮点数格式为:1 sign bit, 5 exponent bit.原创 2021-07-13 10:15:38 · 507 阅读 · 0 评论 -
TensorRT-INT8校准原理
引用自此git blogIN8校准原理,侵删No saturation(不饱和映射):简单的将一个tensor 中的 -|max| 和 |max| FP32 value 映射为 -127 和 127 ,中间值按照线性关系进行映射。但是试验结果显示这样做会导致比较大的精度损失。Saturate(饱和映射):这种做法不是将 ±|max| 映射为 ±127,而是存在一个 阈值 |T......原创 2019-11-28 16:32:10 · 553 阅读 · 0 评论