大模型量化--BiLLM

背景介绍

 本文作者来自香港大学,北航大学以及苏黎世联邦理工学院。近年来,预训练大模型在自然语言生成方面,展现出了非凡的能力,但是往往参数量非常庞大。模型权重二值化(binarizatio)是一种非常有效的,降低模型大小的方法,但现有的量化方法在二值化模型时,效果往往较差。
 因此,本文作者提出了一种,大模型PTQ二值化量化方法。该方法可以将LLaMA2-70B量化至1.08-bit(部分权重2bit),Wikitext2 数据集上 ppl 可达8.42。同时,该方法所需的计算资源较少,只需0.5h,便可在1块A100上量化一个7B的模型。

  • 论文:https://arxiv.org/pdf/2402.04291
  • 代码:https://github.com/Aaronhuang-778/BiLLM

核心方法

BiLLM--方法框架
本文的核心方法包括三部分:基于Hessian矩阵的显著权重选择、基于二值化残差(Binary Reidual Approximation)的显著权重量化、基于钟型分布(Bell-shaped Distribution)的权重量化分组

  • 基于Hessian矩阵的显著权重选择
  • 基于二值化残差(Binary Reidual Approximation) 的显著权重量化
  • 基于钟型分布(Bell-shaped Distribution) 的权重量化分组

基于Hessian矩阵的显著权重选择

 为了最小化模型的量化损失,作者对显著性权重(salient weights)、非显著性权重(non-salient)采取了不同的二值化量化方式。显著性权重可以理解为:关键权重,对模型效果影响较大的权重,需要精心设计量化

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值