本文是LLM系列文章,针对《Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models》的翻译。
Spectra:三元、量化和FP16语言模型的综合研究
摘要
训练后量化是解决LLM推理中与内存相关的瓶颈的主要方法,但不幸的是,在4位精度以下,它的性能会显著下降。另一种方法是直接以低位宽训练压缩模型(例如,二进制或三进制模型)。然而,这些模型的性能、训练动态和扩展趋势尚未得到很好的理解。为了解决这个问题,我们训练并公开发布了Spectra LLM套件,该套件由54个语言模型组成,参数从99M到3.9B不等,在300Btoken上训练。Spectra包括FloatLM、训练后量化QuantLM(3、4、6和8位)和三元LLM(TriLM),这是我们改进的三元语言建模架构,其性能明显优于之前提出的给定大小(以位为单位)的三元模型,在规模上匹配半精度模型。例如,TriLM 3.9B(位)小于半精度FloatLM 830M,但在常识推理和知识基准测试中与半精度Float LM 3.9B相匹配。然而,TriLM 3.9B的毒性和刻板印象也与尺寸大六倍的FloatLM 3.9B一样。此外,TriLM 3.9B在验证分割和基于网络的语料库方面的困惑程度落后于FloatLM,但在Lambada和PennTreeBank等噪声较小的数据集上表现更好。
为了加深对低位宽模型的理解,我们将在https://github.com/NolanoOrg/SpectraSuite发布了Spectra套件的500多个中间检查点.

订阅专栏 解锁全文
844

被折叠的 条评论
为什么被折叠?



