对于pytroch模型量化前面已经有所介绍,今天基于LLM中基石transformers模型如何在设别端进行量化部署进行如下总结学习。
(1)GPTQ
2022年,Frantar等人发表了论文 [GPTQ:Accurate Post-Training Quantization for Generative Pre-trained Transformers]。这篇论文详细介绍了一种训练后量化算法,适用于所有通用的预训练 Transformer模型,同时只有微小的性能下降。GPTQ算法需要通过对量化模型进行推理来校准模型的量化权重。详细的量化算法在原始论文中有描述。基于`auto-gptq`开源实现库,transformers 支持使用GPTQ算法量化的模型。