Binary Neural Networks for Large Language Model: A Survey

最新推荐文章于 2025-12-12 18:01:47 发布

UnknownBody

最新推荐文章于 2025-12-12 18:01:47 发布

阅读量190

点赞数 5

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/146041894

LLM Daily 同时被 3 个专栏收录

1734 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

Survey Paper

276 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM quantization

13 篇文章

订阅专栏

摘要

大语言模型（LLMs）在自然语言处理（NLP）领域有着广泛应用，如GPT-4和Llama。然而，随着模型参数规模呈指数级增长，大语言模型带来了巨大的资源开销。低比特量化作为一项关键技术，通过减小模型参数、激活值和梯度的比特宽度，降低了内存使用和计算需求。以往针对大语言模型的量化方法主要采用训练后量化（PTQ）和量化感知训练（QAT）。训练后量化无需对原始模型进行重新训练，而量化感知训练则在训练过程中优化精度以获得最佳量化参数。BitNet团队提出了一种截然不同的方法，即从模型训练开始就进行量化，在训练过程中使用低精度的二进制权重。这一方法促使了许多针对大语言模型的二进制量化技术的出现。本文对这些二进制量化技术进行了全面综述。具体而言，我们将介绍深度神经网络中的二进制量化技术，并进一步探讨其在大语言模型中的应用，回顾它们的各种贡献、实现方式和应用场景。

引言

随着大语言模型（LLMs）在自然语言处理（NLP）领域的迅速发展，这些模型在语言生成、文本理解和任务推理等方面展现出了卓越的性能。然而，随着模型参数规模的指数级增长，大语言模型也带来了显著的资源开销，包括高内存使用、计算复杂性和能耗增加，这给这些模型的部署和实际应用带来了巨大挑战。为了解决这些挑战，低比特量化成为了提高大语言模型效率和可部署性的关键技术。此前该领域的大多数研究主要集中在训练后量化（PTQ）和量化感知训练（QAT）上。训练后量化允许将训练好的FP32模型直接转换为定点计算模型，而无需对原始模型进行重新训练。另一方面，量化感知训练是对训练好的模型进行量化，然后再进行重新训练。

在本文中，我们主要关注二进制量化技术，特别强调BitNet方法，它首次实现了针对大语言模型的