论文总结：Post training 4-bit quantization of convolutional networks for rapid-deployment

最新推荐文章于 2025-09-10 22:48:59 发布

原创

最新推荐文章于 2025-09-10 22:48:59 发布 · 3.4k 阅读

8 ·

CC 4.0 BY-SA版权

本文介绍了一种针对CNN的4bit训练后量化方法，包括ACIQ、Per-channel bit-allocation和Bias-Correction，旨在减少量化导致的精度损失，无需重新训练。实验表明，该方法能有效保持网络精度。

论文地址：https://arxiv.org/pdf/1810.05723.pdf

主要内容

神经网络的量化造成的精度损失可以通过训练来补偿，但需要完整的数据集信息(大都涉及隐私等)，而且训练很耗时，故此一些统称为训练后量化的方法被提出，这些方法只需要量化权重和激活值，不需要重新训练。但是，低于8bit的量化会导致显著的精度下降，因此作者研究了CNN训练后的4bit量化。
作者提出了三种训练后量化的方法：ACIQ、Per-channel bit allocation、Bias-correction。

Analytical Clipping for Integer Quantization (ACIQ)

该方法用于激活值的量化。
假设X是高精度的随机变量，f(x)是其概率密度函数， $E (x) = 0$ (不失一般性，因为可以随时添加或减去该均值)，总位宽为M，要将值量化为 $2^M$ 个离散值。
首先，定义一个剪裁函数 $clip(x,α),x∈Rclip(x,\alpha), x \in R$

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

gcf_uinque

关注关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

极智AI | 量化实现分享三：详解 ACIQ 对称量化算法实现

极智视界

12-29

1644

大家好，我是极智视界，本文剖析一下ACIQ 对称量化算法实现，以 Tengine 的实现为例。

ChatGLM 官方ptuning2训练参数解析

强化学习曾小健

06-30

2457

这是一个环境变量，代表序列的预设长度为128。LR=2e-2：另一个环境变量，代表学习率为0.02。：此环境变量用于设置哪些GPU可见，这里设置为只有第0个GPU可见。--do_train：此参数指示程序进行训练。：用于训练的文件路径。：用于验证的文件路径。：在输入数据中，用于作为输入的列名是“content”。：在输入数据中，用于作为目标的列名是“summary”。：此参数指示如果缓存存在，将覆盖它。：预训练模型的名称或路径。：输出目录的路径。：此参数指示如果输出目录存在，将覆盖它。

参与评论您还未登录，请先登录后发表或查看评论

Post training 4-bit quantization of convolutional networks for rapid-deployment

JachinMa的博客

01-19

1418

现有的很多量化方法都是通过量化后重训练来弥补量化损失的，但这些方法并不完美：它们需要完整的数据集（这涉及到隐私及其他问题），而且还需要大量的计算资源。于是，一种被称为post-training的方法被踢出了：它不需要完整的数据集，也不需要重新训练或微调模型（也就是说，可以达到端对端），且它的准确率与流行的浮点模型的精度接近。但这类方法一旦把量化精度放到8bit以下时，精度就大幅下降。为了解决这个...

关于4-BIT量化

Ganmy2001的博客

08-19

1190

大模型量化技术通过降低参数精度来减少存储空间，如将FP32/FP16转为4-bit表示。其核心原理是分组量化：每组参数使用自定义"刻度尺"（scale）和零点，将浮点权重映射为整数编号存储。计算时再还原为bf16/FP16参与运算。NF4采用非均匀刻度，在权重密集的0附近设置更密刻度。双重量化进一步压缩scale参数。这种技术让权重以4-bit存储，仅在计算时临时还原，实现显存节省和计算效率的平衡，但需注意离群值处理和分组粒度等权衡因素。

4.6 4bit量化与QLoRA模型训练

a131529的博客

10-18

1765

bnb_4bit_compute_dtype=torch.bfloat16：电脑的卡较好情况下可以使用bfloat16，不太好就可以使用FP16，FP16有时候会出现一些溢出的问题。bnb_4bit_use_double_quant=True：这个参数启用了。optim="paged_adamw_32bit"：使用32位分页优化器。bnb_4bit_quant_type="nf4"：指定了使用。QLoRA 的核心思想是在大型语言模型的微调过程中，采用。来压缩模型的权重，从而减少显存的占用，并使用。

Common Issues and Solutions for YOLOv10: Overcoming Challenges in Training and Deployment, Ensuring ...

# Common Issues and Solutions for YOLOv10: Overcoming Challenges in Training and Deployment for Stable Model Operation ## 1. Overview of YOLOv10 YOLOv10 is one of the most advanced real-time object ...

【论文合集】Awesome Backdoor Learning

m0_61899108的博客

05-19

3971

关于后门攻击&防御的博客与论文。

【AI 顶会】NIPS2019接收论文完整列表

热门推荐

TomRen

09-11

3万+

NeruIPS2019接受的论文列表已放出

实验四——DPCM编码（1bit、2bit、4bit、8bit量化）

weixin_52189060的博客

04-24

5111

一.实验要求本实验的目标是验证DPCM编码的编码效率。首先读取一个256级的灰度图像，采用自己设定的预测方法计算预测误差（本次实验报告使用左向预测），并对预测误差进行8比特均匀量化（基本要求）。还可对预测误差进行1比特、2比特和4比特的量化设计（提高要求）。在DPCM编码器实现的过程中可同时输出预测误差图像和重建图像。将预测误差图像写入文件并将该文件输入Huffman编码器，得到输出码流、给出概率分布图并计算压缩比。将原始图像文件输入Huffman编码器，得到输出码流、给出概率分布图并计算压缩比。.

量化与优化：如何让大模型跑得更快、更省资源？（4-bit 量化、FlashAttention、TensorRT）

晴天彩虹雨的博客

04-03

809

在大模型的训练与推理中，计算资源与存储资源的消耗常常是令人头疼的问题。为了提升效率、降低成本，我们需要对大模型进行量化与优化。本文将详细介绍 4-bit 量化、FlashAttention 和 TensorRT 的使用方法，以及如何在实际部署中结合这些技术进行优化。

SmoothQuant+：可以用于大语言模型的 4-bit 量化算法

LF_AI的博客

12-22

2484

‍‍‍‍LLMs 在各种任务上展现出令人惊叹的能力，但是庞大的模型尺寸和对算力的巨大需求对模型的部署也提出了挑战。目前 4-bit 的 PTQ 权重量化在 LLMs 上已经取得了一些成绩，相对 FP16 内存占用减少近 75%，但是在精度上仍有较大的损失。我们在论文《SmoothQuant+：Smooth LLM Weight Quantization and Acceleration in 4-...

低资源大语言模型LLM研究者的希望 LIMA + 4Bit 量化训练

znsoft的专栏

05-24

1496

1. 4Bit 训练方法，可以在A6000或6000 ADA这样的消费级显卡上进行65B模型的微调。预测后面的大模型研发工作将进入井喷状态，各种大模型会层出不穷。指令微调数据的质量，每条指令遵从的质量和多样性才是关键。2. 人工收集加工1000条或稍多的高质量指令微调数据成为可能。指令微调只是给模型增加风格，并不能提升能力。RLHF人类遵从的强化学习训练不是必要的。越大的模型才有更强的潜力。LIMA模型的研究（

Unsloth - 动态 4 bit 量化

AI工程化、开源分享、文档翻译、代码笔记

03-09

1985

事实表明，较小的模型仅使用6到8位量化，而较大的模型如 8B 及以上则使用4位量化。我们的动态4位模型得分几乎与我们的16位版本一样高——并且远高于标准的Bnb 4位和微软官方的16位模型，特别是在MMLU方面。下面的测试表明，标准4位量化的性能比原来的16位差，而 Unsloth的动态4位量化提供了非常准确和可靠的结果。最有趣的是，如果我们使用我们的动态量化方法，它确实使模型变得更好，但它仍然奇怪地不匹配16位全精度。我们动态量化专家的有效性有一个很好的例子，就是我们对微软的Phi-4的最新动态量化。

MLX模型量化：4bit量化实现内存效率提升

最新发布

gitblog_00874的博客

09-10

279

在现代机器学习应用中，模型规模不断增长，对内存和计算资源的需求也随之剧增。MLX作为苹果硅芯片上的高效数组框架，提供了强大的量化功能，特别是4bit量化技术，能够显著降低模型内存占用，同时保持合理的推理精度。本文将深入探讨MLX中的4bit量化实现，通过详细的代码示例和性能对比，展示如何在实际项目中应用这一技术来优化内存使用效率。 ## 量化基础概念 ### 什么是模型量化？模型量化（...

大语言模型LLM权重4bit向量量化(Vector Quantization)/查找表量化基本原理

LuchangLi 的专栏

09-06

2456

针对大语言模型权重的4bit量化，除了常规的广泛使用的group-wise均匀量化，如GPTQ, AWQ等等，苹果提出了一种称为Palettization的lookup table (LUT)查找表量化技术，高通也提出了新的一种向量量化技术，其实这两种技术原理基本上是相同的

LLM 量化新篇章，4-bit 权重激活量化几乎无损！FlatQuant 的平坦之道

连理o的博客

10-22

3142

本文介绍来自华为诺亚方舟实验室、清华大学和香港中文大学联合在大语言模型量化上的最新工作 **FlatQuant (Fast and Learnable Affine Transformation)**。FlatQuant 通过为每个线性层适配轻量的可学习的仿射变换，有效平滑 LLM 离群值，得到更加平坦的权重和激活值分布，有效降低量化损失。相比此前的量化方法 [1][2]，本方法首次在 **LLaMA-3-70B 上达到 W4A4

QLoRA | 48G内存训练24小时，改进版4-bit量化技术微调650亿参数的模型达到chatgpt99.3%的效果

hxshine的博客

06-03

2779

and直接训练650亿参数的LLaMA进行16位微调需要780GB内存，成本太高。最近量化技术能降低LLM内存使用量，但是一般适应语推理阶段，其用在训练阶段效果就拉跨。本文证明可以在4-bit量化微调带来的损失，可以完全通过adpter来优化，达到原始16-bit微调的精度（chatgpt的99.3%），并极大程度的降低内存使用量同时降低训练时间。QLoRA方法要点如下：直接使用4-bit精度的量化利用Paging Flow优化内存spikes问题with LoRA。

【AI学习】简单聊聊后训练（Post-Training）的重要性

bylander的博客

05-17

7771

模型生成的输出质量比网上的大多数内容都要高。因此，让模型自己思考似乎更有道理，而不仅仅是训练来模仿网络上的内容。所以，我认为从第一性原理上来说，这是有说服力的。我会说，我们通过后训练取得了很多进步。

Pareto-Optimal Quantized ResNet Is Mostly 4-bit

xieyi4650的博客

07-13

484

论文背景文章地址代码地址 amirali.abdolrashidi @email.ucr.edu, {fwanglisa, shivaniagrawal, malmaud, rybakov, cleichner, lewg} @google.com 谷歌和UCR联合发表的期刊/会议: CVPR 2020 Abstract In this work, we use ResNet as a case study to systematically investigate the effect

ImportError: Using `bitsandbytes` 4-bit quantization requires the latest version of bitsandbytes: `pip install -U bitsandbytes`

04-23

<think>好的，用户遇到了在使用bitsandbytes进行4-bit量化时出现ImportError的问题，想要通过更新库来解决。首先，我需要回忆相关的引用内容，特别是引用[2]和[4]，它们提到了配置4-bit量化需要的步骤和可能的安装问题。用户的问题核心是解决ImportError，这通常是由于缺少依赖库或版本不兼容引起的。根据引用[1]、[3]、[4]，安装Accelerate和正确版本的bitsandbytes是关键。首先，应该确保安装了Accelerate库，使用pip install accelerate。然后，更新bitsandbytes到最新版本，可能需要通过特定的源安装，比如测试版的PyPI或者官方源。接下来，我需要检查用户是否按照正确的顺序安装，是否有环境冲突。可能的问题包括旧版本的bitsandbytes残留，或者安装命令不正确。建议用户先升级pip，再安装指定版本的bitsandbytes，并确认安装后没有错误信息。另外，用户可能在使用某些框架（如Transformers）时需要在代码中正确配置量化参数，比如load_in_4bit=True，并确保调用了正确的API。如果问题仍然存在，可能需要检查CUDA版本是否兼容，或者尝试在干净的虚拟环境中重新安装依赖。最后，生成相关问题时要覆盖常见的后续疑问，比如如何验证安装是否成功，如何处理CUDA兼容性问题，以及优化模型量化的其他方法。</think>### 如何通过更新bitsandbytes库解决4-bit量化的ImportError问题 #### 问题分析在使用`bitsandbytes`进行4-bit量化时出现`ImportError`，通常是由以下原因导致： 1. **未安装`accelerate`库**：4-bit量化依赖`accelerate`的底层加速支持[^1][^3][^4]。 2. **bitsandbytes版本过旧**：旧版本可能不支持4-bit量化或与新版本框架（如`transformers`）存在兼容性问题[^2][^4]。 3. **安装源错误**：未通过官方或测试版PyPI源安装最新版本[^3][^4]。 #### 分步解决方案 1. **安装或更新`accelerate`库**： ```bash pip install accelerate -U ``` 2. **强制更新`bitsandbytes`到最新版本**： - 通过官方PyPI源安装： ```bash pip install bitsandbytes -U --force-reinstall ``` - 若官方源延迟，使用测试版源： ```bash pip install -i https://test.pypi.org/simple/ bitsandbytes --upgrade ``` 3. **验证安装**： ```python import bitsandbytes print(bitsandbytes.__version__) # 应≥0.40.0 ``` 4. **代码中显式启用4-bit量化**（以Hugging Face Transformers为例）： ```python from transformers import AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained("model_path", load_in_4bit=True) ``` #### 常见问题排查 - **CUDA兼容性**：确保CUDA版本≥11.0且与PyTorch版本匹配。 - **虚拟环境隔离**：建议在干净的虚拟环境中操作以避免依赖冲突。 - **框架版本要求**：若使用`transformers`，需升级到≥4.30.0版本[^2]。