本文是LLM系列文章,针对《The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits》的翻译。
1位LLM时代:所有大型语言模型都是1.58位
摘要
最近的研究,如BitNet,正在为1位大型语言模型(LLM)的新时代铺平道路。在这项工作中,我们引入了一个1位LLM变体,即BitNet b1.58,其中LLM的每个单个参数(或权重)都是三元{-1,0,1}。它在困惑和最终任务性能方面与具有相同模型大小和训练token的全精度(即FP16或BF16)Transformer LLM相匹配,同时在延迟、内存、吞吐量和能耗方面显著更具成本效益。更深入地说,1.58位LLM定义了一种新的缩放定律和配方,用于训练新一代的LLM,这些LLM既高性能又具有成本效益。此外,它实现了一种新的计算范式,并为设计针对1位LLM优化的特定硬件打开了大门。
1 1位LLM时代
2 BitNet b1.58
3 结果
4 讨论和未来工作
1位专家混合(MoE)LLM
混合专家(MoE)已被证明是LLM的一种具有成本效益的方法。虽然它显著减少了计算FLOP,但高内存消耗和芯片间通信开销限制了它的部署和应用。这些挑战可以通过1.58位LLM来解决。首先,减少的内存占用减少了部署MoE模型所需的设备数量。此外,它还显著减少了跨网络传输激活的开销。最终,如果整个模型都可以放在一个芯片上,就不会有开销。
LLM中长序列的原生支持
在LLM时代,处理长序列的能力已成为一个关键需求。长序列推理的一个主要挑战是KV缓存引入的内存消耗。
本文介绍了BitNet b1.58,这是一种1位大型语言模型,其参数以{-1, 0, 1}表示,与全精度模型性能相当但更节省资源。1位LLM通过减少内存占用和计算开销,为混合专家(MoE)LLM提供解决方案,并原生支持长序列处理。BitNet b1.58有望提升边缘和移动设备上LLM的性能,且可能推动针对1位LLM的专用硬件设计。"
82191491,7384183,RSA非对称加密在前端与Node层的应用实践,"['加密', 'node-rsa', '前端开发', '后端开发', '网络安全']
订阅专栏 解锁全文
283

被折叠的 条评论
为什么被折叠?



