0. 前序背景
论文:GLM-130B: AN OPEN BILINGUAL PRE-TRAINED MODEL
目前GLM2-130B优于或相当GPT-3-175B的性能。
选择130B(1300亿参数)是从硬件性能考虑,可以在单张A100(40Gx8)上进行推理(高端A100 80Gx8),也可以进行INT4量化后在7GB的显存上运行。
GLM130B借鉴了FastTransformer同时使用C++实现,比采用Pytorch实现的BLOOM-176B快7-8倍。
非量化模型约微调0.1%的参数;
量化模型的微调需要借助P-tuning v2平台:P-tuning-v2
全模型参数的微调需要借助微软的DeepSpeed平台:<