
量化大型语言模型(LLMs)是当前最流行的模型压缩和加速推理方法。在这些技术中,GPTQ 在 GPU 上展现出惊人的性能表现。与未量化模型相比,该方法在保持相近精度和更快生成速度的同时,VRAM 占用减少了近 3 倍。其流行程度之高,以至于近期已直接集成到 transformers 库中。
ExLlamaV2 是一个专为榨取 GPTQ 更多性能而设计的库。得益于新内核,它针对(极速)推理进行了优化。该库还引入了新的量化格式 EXL2,为权重存储方式提供了极大灵活性。
本文将探讨如何以 EXL2 格式量化基础模型及其运行方法。
https://colab.research.google.com/drive/1wjZ-Cn_RjZaI5uDK0m8GJJF_wmEmQUSl#scrollTo=QzUdY6GPiZXG
⚡ Quantize EXL2 models
开始探索前,我们需要安装 ExLlama

订阅专栏 解锁全文
1067

被折叠的 条评论
为什么被折叠?



