<论文>双语预训练模型GLM-130B

一、摘要

        本文介绍论文《GLM-130B: An Open Bilingual Pre-trained Model》,同样是来自清华的唐杰团队,这次的GLM-130B是基于GLM模型框架的优化版本。

译文:

        我们介绍了GLM-130B,这是一种具有1300亿参数的双语(英语和中文)预训练语言模型。这是一次开源一个至少与GPT-3(davinci)同等优秀的1000亿规模模型的尝试,并揭示了如何成功预训练如此规模的模型。在这一过程中,我们面临了许多意想不到的技术和工程挑战,特别是在损失峰值和发散问题上。在本文中,我们介绍了GLM-130B的训练过程,包括其设计选择、提高效率和稳定性的训练策略以及工程努力。最终的GLM-130B模型在广泛的流行英语基准测试中显著优于GPT-3 175B(davinci),而在OPT-175B和BLOOM-176B中未观察到这种性能优势。它还在相关基准测试中持续且显著地优于ERNIE TITAN 3.0 260B——最大的中文语言模型。最后,我们利用GLM-130B的独特扩展特性,在几乎没有性能损失的情况下实现了INT4量化,使其成为首个1000亿规模模型,并且更重要的是

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值