NeurIPS 2024 Oral:用 DuQuant 实现 SOTA 4bit 量化

关注公众号:青稞AI,学习最新AI技术
🔥青稞Talk主页:qingkelab.github.io/talks

当今 LLM 中存在非常大的离群值(outliers),为低比特量化带来了巨大挑战。而传统方法在 LLM FFN 模块中的 down_proj layer 存在明显的 massive outliers,表现为大于几百的激活值并局限于个别的 tokens 中,这些 massvie outliers 造成 SmoothQuant 和 OmniQuant 等量化算法在 4bit 权重激活量化中表现糟糕。

在这里插入图片描述

为了消除 outliers,研究者提出了 DuQuant,它可以通过学习旋转变换和通道置换变换,在激活矩阵内部将 outliers 转移到其他通道,最终得到平滑的激活矩阵,从而大幅度降低了量化难度。DuQuant 在 4-bit 权重激活量化 setting 下明显提升了不同架构量化模型在 PPL、QA、MMLU、MT-Bench 和 LongBench 等任务上的性能。

Paper:DuQuant: Distributing Outliers via Dual Transformation Makes Stronger Quantized LLMs
Abs:https://arxiv.org/pdf/2406.01721
Code: https://github.com/Hsu1023/DuQuant
Project:https://duquant.github.io

11月5日19点,青稞Talk 第28期,中科院自动化所和香港城市大学联合培养博士生林浩坤,将直播分享《DuQuant: 基于正交变换实现大型语言模型的 SOTA级 4 bit 量化》。

Talk信息

主讲嘉宾

林浩坤,中科院自动化所和香港城市大学联合培养博士生,研究方向为模型压缩加速,相关研究工作发表于CVPR、NeurIPS、ICLR等会议。

主题提纲

DuQuant: 基于正交变换实现大型语言模型的 SOTA级 4 bit 量化

1、大语言模型权重激活(WA)量化算法概述
2、SOTA 4bit 量化算法:DuQuant
  - LLM 中的离群值(outliers)问题
  - 正交变换分散 LLM 离群值策略
  - 在 LLaMA、Vicuna、Mistral 系列模型的验证
3、DuQuant 量化实践

参与方式

Talk 将在青稞·知识社区上进行,添加【ai_qingke113】对暗号:" 1105 ",报名进群!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值