本文是LLM系列文章,针对《OneBit: Towards Extremely Low-bit Large Language Models》的翻译。
摘要
模型量化使用低位宽值来表示要量化的现有模型的权重矩阵,这是一种很有前途的方法,可以减少部署备受期待的LLM的存储和计算开销。然而,当前的量化方法在比特宽度被极大地减小时遭受严重的性能退化,并且因此专注于利用4比特或8比特的值来量化模型。本文大胆地将LLM的权重矩阵量化为1位,为LLM的极低位宽部署铺平了道路。为此,我们引入了一个名为OneBit的1位模型压缩框架,包括一种新的1位参数表示方法来更好地量化LLM,以及一种基于矩阵分解的有效参数初始化方法来提高量化框架的收敛速度。充分的实验结果表明,仅使用1位权重矩阵时,OneBit通过稳健的训练过程获得了良好的性能(至少是LLaMA模型上非量化性能的81%)。代码和检查点位于https://github.com/xuyuzhuang11/OneBit.