<论文>用自回归空白填充技术训练一个GLM

一、摘要

        本文介绍提出大模型GLM的论文——由清华大学团队开展研究,并被ACL2022录用的《GLM: General Language Model Pretraining with Autoregressive Blank Infilling

4dbc3825a2fc4f1ab028678cf42b7be4.png

译文:

        目前已有多种预训练架构,包括自编码模型(如BERT)、自回归模型(如GPT)和编码器-解码器模型(如T5)。然而,没有一种预训练框架在自然语言理解(NLU)、无条件生成和条件生成这三大类任务中表现最佳。我们提出了一种基于自回归空白填充的通用语言模型(GLM)来应对这一挑战。GLM通过添加二维位置编码并允许以任意顺序预测跨度来改进空白填充预训练,这在NLU任务上带来了比BERT和T5更好的性能提升。同时,通过改变空白的数量和长度,GLM可以针对不同类型的任务进行预训练。在广泛的任务中,包括NLU、条件生成和无条件生成,GLM在相同模型规模和数据条件下,表现优于BERT、T5和GPT,并且在单个预训练模型中以1.25倍于BERT Large的参数量实现了最佳性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值