摘要
大语言模型(LLMs)在自然语言处理(NLP)领域有着广泛应用,如GPT-4和Llama。然而,随着模型参数规模呈指数级增长,大语言模型带来了巨大的资源开销。低比特量化作为一项关键技术,通过减小模型参数、激活值和梯度的比特宽度,降低了内存使用和计算需求。以往针对大语言模型的量化方法主要采用训练后量化(PTQ)和量化感知训练(QAT)。训练后量化无需对原始模型进行重新训练,而量化感知训练则在训练过程中优化精度以获得最佳量化参数。BitNet团队提出了一种截然不同的方法,即从模型训练开始就进行量化,在训练过程中使用低精度的二进制权重。这一方法促使了许多针对大语言模型的二进制量化技术的出现。本文对这些二进制量化技术进行了全面综述。具体而言,我们将介绍深度神经网络中的二进制量化技术,并进一步探讨其在大语言模型中的应用,回顾它们的各种贡献、实现方式和应用场景。
引言
随着大语言模型(LLMs)在自然语言处理(NLP)领域的迅速发展,这些模型在语言生成、文本理解和任务推理等方面展现出了卓越的性能。然而,随着模型参数规模的指数级增长,大语言模型也带来了显著的资源开销,包括高内存使用、计算复杂性和能耗增加,这给这些模型的部署和实际应用带来了巨大挑战。为了解决这些挑战,