探索Intel Weight-Only量化：提升Hugging Face模型运行效率

最新推荐文章于 2025-08-19 18:46:01 发布

原创

最新推荐文章于 2025-08-19 18:46:01 发布 · 598 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#python #chrome #开发语言

引言

在机器学习领域，模型的大小和推理效率一直是开发者关注的重点。为了提升模型运行效率，特别是在资源受限的设备上，量化技术逐渐成为一种重要的策略。本文将介绍如何使用Intel Extension for Transformers中的Weight-Only Quantization技术，通过量化Hugging Face模型权重来提升推理效率。

主要内容

量化基础

量化是一种将模型参数从浮点数转换为低精度整数的技术，以降低模型大小和提高计算效率。Intel Extension for Transformers提供了多种量化数据类型，如int8、int4、nf4等，支持在CPU上高效执行推理任务。

安装依赖

在开始之前，请确保安装必要的Python包：

%pip install transformers --quiet
%pip install intel-extension-for-transformers

模型加载

我们可以通过WeightOnlyQuantPipeline类加载模型。设置量化配置后，从模型ID加载模型：

from intel_extension_for_transformers.transformers im

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ahdfwcevnhrtds

关注关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

HuggingFace中模型量化

足迹

04-28

981

加载7B的LLM在GPU上进行推理，我这24G的显存居然一次推理都执行不了，Out of Memory。quanto==0.1.0版本的库，需要torch版本>2.2.0, 建议先将torch进行升级。模型量化后，再执行生成文本的代码如下, 只用了不到13G的显存就能够完成推理。quanto量化过程中需要gcc版本大于9.0.0（这个可以自己升级下）transformers 版本 == 4.40.0。这里采用Quanto库进行对模型进行量化。

探索 Intel Weight-Only 量化：优化 Huggingface 模型的新途径

bhawfgrcbtwny的博客

10-02

576

Weight-Only 量化是一个专注于仅量化模型权重的技术。它通过降低模型的存储需求来提高推理速度，同时保持较高的精度。Weight-Only 量化是优化 Huggingface 模型的有力工具。通过本文，你可以了解如何配置和使用这些模型，以及如何处理可能的挑战。

参与评论您还未登录，请先登录后发表或查看评论

使用 Intel Extension 实现 Hugging Face 模型的权重量化

tt_jishu的博客

06-20

353

Hugging Face 的模型库中拥有超过 12 万个模型及各种数据集和应用。为了在资源有限的本地环境中高效地运行这些模型，量化技术应运而生。权重量化是一种将模型权重压缩为更小数据类型的技术，从而在不显著降低模型性能的情况下减少内存占用和计算负担。Intel Extension for Transformers 提供了一种便捷的方法，通过权重量化来加速 Hugging Face 模型的推理。

深度学习模型精度与PyTorch模型量化

热门推荐

关于我的学习记录

12-19

1万+

深度学习模型精度与PyTorch模型量化

LMDeploy 大模型量化部署

weixin_55982578的博客

02-26

1501

LMDeploy是LLM在英伟达设备上部署的全流程解决方案。包括模型轻量化、推理和服务

探索 Intel Weight-Only 量化技术：提升 Hugging Face 模型的性能

nseejrukjhad的博客

11-29

498

使用 Weight-Only 量化技术，可以在不牺牲性能的前提下，显著减少模型的计算资源消耗。这为在边缘计算设备上运行大规模模型提供了广阔的空间。Intel Extension for Transformers 官方文档Hugging Face 文档。

深入探索英特尔扩展的Weight-Only量化：提升Hugging Face模型的性能

qq_29929123的博客

12-05

494

Weight-Only量化是指仅对模型的权重进行量化，而不改变激活函数。这种方法可以在保持模型性能的同时，大幅度缩小模型的存储空间。Hugging Face提供了一个类，可以轻松实现这种量化。通过使用英特尔扩展的Weight-Only量化，您可以有效地缩小模型的存储规模，同时维持性能。Hugging Face 文档。

探索Intel扩展中的Weight-Only量化：提升Hugging Face模型性能

ahdfwcevnhrtds的博客

09-20

535

Weight-Only量化是一种将神经网络模型权重进行压缩的技术，仅保留最重要的信息部分。这不仅减少了存储需求，也提高了推理速度。Weight-Only量化技术为模型优化提供了一条途径，特别是对于资源受限的设备。建议感兴趣的读者进一步阅读Intel扩展的官方文档，以及Hugging Face Model Hub的使用案例。

ChatGLM的int8量化以及由此对量化的梳理总结

HUSTHY的博客

08-21

5611

目前随着模型规模越来越大，对于没有很多算力的人来说，使用大模型的门槛越来越高，因此ChatGLM提供的模型支持，fp16、int8和int4的量化，来降低加载模型的显存，让更多的人能使用该大模型。

模型量化与量化在LLM中的应用｜得物技术

SmartCodeTech的博客

04-30

1868

随着模型在各种场景中的落地实践，模型的推理加速早已成为AI工程化的重要内容。而近年基于Transformer架构的大模型继而成为主流，在各项任务中取得SoTA成绩，它们在训练和推理中的昂贵成本使得其在合理的成本下的部署实践显得愈加重要。

PyTorch模型量化方法

WX_Chen的博客

06-02

1419

per channel是对于tensor的某一个维度（通常是channel的维度）上的值按照一种方式去scale和offset，也就是一个tensor里有多种不同的scale和offset的方式（组成一个vector），如此以来，在量化的时候相比per tensor的方式会引入更少的错误。动态量化，或者叫作Weight-only的量化，是提前把模型中某些op的参数量化为INT8，然后在运行的时候动态的把输入量化为INT8，然后在当前op输出的时候再把结果requantization回到float32类型。

PyTorch量化实践（2）

十二月未央未眠

06-01

1608

量化是一种廉价而简单的方法，可以使深度神经网络模型运行得更快，并具有更低的内存需求。PyTorch提供了几种量化模型的不同方法。在这篇博客文章中，我们将(快速)为深度学习中的量化奠定基础，然后看看每种技术在实践中是怎样的。最后，我们将以文献中关于在工作流程中使用量化的建议作为结束。

定点化和模型量化（二）

zcg1942的博客

05-31

1470

一个问题是原有的激活函数是为分布在0~1的数据设计的，以sigmoid为例，浮点的时候要无限接近于1它才等于1，但量化数据很容易就大于1了，但从整个分布看这个值其实还处于比较低的水平。文章假设了BN-->relu这样的顺序结构，因此BN层得到的高斯分布，只有正半轴的部分保留了下来，此时不能直接使用BN的均值作为 E[x]。正如前面提到的，MobileNetV2的后量化会面临70.9% to 0.1%的准确度下降，但这篇文章不需要per channel量化，也不需要训练就可以得到接近原始精度的量化效果。

PyTorch Python API：Quantization || Intro

Mr_Menace的博客

11-11

3412

量化是一种以低于浮点精度的位宽，来执行张量的计算和存储的技术。量化过的模型对部分或全部 Tensor 使用整数，而不是浮点值来执行操作。这允许更紧凑的模型表示，并能在硬件平台上使用高性能 Tensor 运算。需要注意的是，目前 PyTorch 不提供 CUDA 上的量化算子的实现——也即不支持 GPU——量化后的模型将移至 CPU 上运行、测试。但是进行 QAT 时可以在 GPU 上运行。此外，PyTorch 还支持 QAT，该训练使用伪量化模块对前向和后向传递中的量化误差进行建模。

如何使用PyTorch的量化功能？

Paper weekly

01-31

8173

背景在深度学习中，量化指的是使用更少的 bit 来存储原本以浮点数存储的 tensor，以及使用更少的 bit 来完成原本以浮点数完成的计算。这么做的好处主要有如下几点：更少的模型体积，...

量化的一些paper阅读

m0_46861439的博客

04-07

864

前言这是一项赶鸭子上架的工作，此项工作的目的是把我从一个一无所知的小白变成懂一点神经网络轻量化东西的一年级学生，然后就可以参与大约十天后的文书撰写工作。我也不知道为什么每一年都这么忙。anyway，最重要的是认知-认同-实践这份东西主要是我的论文阅读概述，方便我找些东西 1.A White Paper on Neural Network Quantization https://arxiv.org/pdf/2106.08295.pdf ................................

＜rtde＞＜UR＞＜python＞windows系统下，使用python安装ur-rtde库的一些问题

用沸腾的热血，支付我们的人生吧！

08-18

1552

本文介绍了在Windows 10系统中安装Python库ur-rtde的详细过程。ur-rtde是用于控制UR机器人的实时通讯库，安装前需先配置cmake、boost和pybind11等依赖项。文章详细记录了安装过程中可能遇到的编码错误、依赖缺失等问题，并提供了通过conda创建虚拟环境来简化安装的解决方案。最终通过conda安装依赖后，成功使用pip完成了ur-rtde的安装。

java基础知识总结

最新发布

yvya_的博客

08-19

1402

java 基础包含语法、面向对象，异常处理、文件操作等方面。

07-26

2. **加载代码不兼容**：使用的加载代码（如vLLM或Hugging Face的`from_pretrained`）可能没有针对量化模型做适配，导致在加载权重时按照非量化模型的权重名称去查找，从而引发KeyError。 ### 解决步骤 #### 步骤1...