模型量化
文章平均质量分 76
0基础学习量化
大脸男孩
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
vllm量化05—FP8 W8A8
本系列基于Qwen2.5-7B,学习如何使用,并使用benchmark_serving.py、lm_eval 测试模型性能和评估模型准确度。本文是该系列第6篇——FP8 W8A8。原创 2025-05-16 08:51:36 · 673 阅读 · 0 评论 -
vllm量化04—INT8 W8A8
本系列基于Qwen2.5-7B,学习如何使用,并使用benchmark_serving.py、lm_eval 测试模型性能和评估模型准确度。本文是该系列第4篇——INT8 W8A8。原创 2025-05-16 08:46:04 · 839 阅读 · 1 评论 -
vllm量化03—INT4 W4A16
本系列基于Qwen2.5-7B,学习如何使用,并使用benchmark_serving.py、lm_eval 测试模型性能和评估模型准确度。本文是该系列第3篇——INT4 W4A16。原创 2025-05-15 18:56:20 · 517 阅读 · 0 评论 -
vllm量化02—AWQ
本系列基于Qwen2.5-7B,学习如何使用,并使用benchmark_serving.py、lm_eval 测试模型性能和评估模型准确度。本文是该系列第2篇——awq量化。原创 2025-05-14 09:22:03 · 879 阅读 · 0 评论 -
vllm量化01—Qwen2.5-7B
本系列基于Qwen2.5-7B,学习如何使用,并使用benchmark_serving.py、lm_eval 测试模型性能和评估模型准确度。本文是该系列第1篇——初始模型。同时简单介绍如何编译 vllm 和如何使用 lm_eval。原创 2025-05-14 09:13:46 · 1205 阅读 · 0 评论 -
AWQ量化
[那么引出问题:如何挑选这些显著权重?这里激活值就是与权重矩阵作matmul运算的输入值。但随之而来的问题是,权重中既有fp16的数据,也有int4的数据,这种混合精度数据类型会使得系统实施变得困难,需要一种方式来保护重要的权重,而不实际地将它们保留为fp16。作者提出的方式是scaling。原创 2025-05-08 16:50:26 · 1049 阅读 · 0 评论 -
量化基础03—Weights Packing and Unpacking
本文主要参考课程,B站视频带中文字幕(),官方视频带jupyter。quantization-in-depth 系列视频主要分为三个部分:1、介绍量化的概念,实现对称量化、非对称量化,基于对称量化实现逐层、逐通道、逐组量化2、实现自己的量化器并量化开源模型3、介绍weights packing 和 unpacking本文主要涉及第三部分。原创 2025-04-18 14:12:32 · 356 阅读 · 0 评论 -
量化基础02—构建自己的量化器
本文主要参考课程,B站视频带中文字幕(),官方视频带jupyter。quantization-in-depth 系列视频主要分为三个部分:1、介绍量化的概念,实现对称量化、非对称量化,基于对称量化实现逐层、逐通道、逐组量化2、实现自己的量化器并量化开源模型3、介绍weights packing 和 unpacking本文主要涉及第二部分。原创 2025-04-17 19:01:16 · 495 阅读 · 0 评论 -
量化基础01—量化的基础概念
量化是将模型中的高精度(如float32)权重和激活值转换为低精度数值(如int8)表示。原创 2025-04-17 09:23:43 · 1236 阅读 · 0 评论
分享