一、摘要
本文介绍提出大模型GLM的论文——由清华大学团队开展研究,并被ACL2022录用的《GLM: General Language Model Pretraining with Autoregressive Blank Infilling》
译文:
目前已有多种预训练架构,包括自编码模型(如BERT)、自回归模型(如GPT)和编码器-解码器模型(如T5)。然而,没有一种预训练框架在自然语言理解(NLU)、无条件生成和条件生成这三大类任务中表现最佳。我们提出了一种基于自回归空白填充的通用语言模型(GLM)来应对这一挑战。GLM通过添加二维位置编码并允许以任意顺序预测跨度来改进空白填充预训练,这在NLU任务上带来了比BERT和T5更好的性能提升。同时,通过改变空白的数量和长度,GLM可以针对不同类型的任务进行预训练。在广泛的任务中,包括NLU、条件生成和无条件生成,GLM在相同模型规模和数据条件下,表现优于BERT、T5和GPT,并且在单个预训练模型中以1.25倍于BERT Large的参数量实现了最佳性