CPM-2: Large-scale Cost-effective Pre-trained Language Models
1 Introduction
- 采用知识继承加速预训练过程,知识继承的目的是利用现有plm的知识来帮助新模型的预训练
- 探索Prompt-Tuning。使用prompt(Lester et al.,2021)而不是fine-tuning来减少任务特定参数的存储。通过prompt,我们只需要保存提示标记的嵌入,提示标记的参数通常小于整个模型参数的0.01%。
- 实现了一个新的推论工具:INFMOE
基于cost-effective pipeline 预训练了两个模型:CPM-2 & MoE版本
PLMs模型越来越多,使用PLMs成本增加,花费主要来源于三个方面:
- 大量计算资源
- 大的存储花费
- 严格的推理设备要求(Strict equipment requirement)
将预训练过程划分为三个阶段: Chinese pre-training, bilingual pre-training,and MoE pre-training
论文实验中发现:
- prompt的位置很关键
- prompt tuning 和fine-tuning结合 效果更好
Prompt
prompt tuning 在原有输入的基础上插入几个prompt tokens并只更新这些token
2 Pre-Training
2.1 Model
CPM-2:由双向的encoder和单向的decoder构成,同时使用了a vibrant of MLM:在decoder输入 随机的取代几个spans使用不同的tokens 如[X] and [Y],让decoder去预测
Original :These are issues which future studies may seek to address
Replace:These are [X] which [Y] may seek to address
Decoder output:[X] issues [Y] future studies [Z]
Z是输出的结束
15%的token被mask 平均取代的span为10
下面是与CPM-1的比较