一、摘要
本文介绍论文《GLM-130B: An Open Bilingual Pre-trained Model》,同样是来自清华的唐杰团队,这次的GLM-130B是基于GLM模型框架的优化版本。
译文:
我们介绍了GLM-130B,这是一种具有1300亿参数的双语(英语和中文)预训练语言模型。这是一次开源一个至少与GPT-3(davinci)同等优秀的1000亿规模模型的尝试,并揭示了如何成功预训练如此规模的模型。在这一过程中,我们面临了许多意想不到的技术和工程挑战,特别是在损失峰值和发散问题上。在本文中,我们介绍了GLM-130B的训练过程,包括其设计选择、提高效率和稳定性的训练策略以及工程努力。最终的GLM-130B模型在广泛的流行英语基准测试中显著优于GPT-3 175B(davinci),而在OPT-175B和BLOOM-176B中未观察到这种性能优势。它还在相关基准测试中持续且显著地优于ERNIE TITAN 3.0 260B——最大的中文语言模型。最后,我们利用GLM-130B的独特扩展特性,在几乎没有性能损失的情况下实现了INT4量化,使其成为首个1000亿规模模型,并且更重要的是