NeurIPS 2024 Oral：用 DuQuant 实现 SOTA 4bit 量化

原创已于 2024-11-01 10:06:31 修改 · 727 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2024-11-01 09:44:31 首次发布

青稞Talk 专栏收录该内容

81 篇文章

订阅专栏

关注公众号：青稞AI，学习最新AI技术
🔥青稞Talk主页：qingkelab.github.io/talks

当今 LLM 中存在非常大的离群值(outliers)，为低比特量化带来了巨大挑战。而传统方法在 LLM FFN 模块中的 down_proj layer 存在明显的 massive outliers，表现为大于几百的激活值并局限于个别的 tokens 中，这些 massvie outliers 造成 SmoothQuant 和 OmniQuant 等量化算法在 4bit 权重激活量化中表现糟糕。

在这里插入图片描述

为了消除 outliers，研究者提出了 DuQuant，它可以通过学习旋转变换和通道置换变换，在激活矩阵内部将 outliers 转移到其他通道，最终得到平滑的激活矩阵，从而大幅度降低了量化难度。DuQuant 在 4-bit 权重激活量化 setting 下明显提升了不同架构量化模型在 PPL、QA、MMLU、MT-Bench 和 LongBench 等任务上的性能。

Paper：DuQuant: Distributing Outliers via Dual Transformation Makes Stronger Quantized LLMs
Abs：https://arxiv.org/pdf/2406.01721
Code： https://github.com/Hsu1023/DuQuant
Project：https://duquant.github.io

11月5日19点，青稞Talk 第28期，中科院自动化所和香港城市大学联合培养博士生林浩坤，将直播分享《DuQuant：基于正交变换实现大型语言模型的 SOTA级 4 bit 量化》。