论文阅读《CPM-2: Large-scale Cost-effective Pre-trained Language Models》

本文介绍了CPM-2模型,通过知识继承加速预训练,使用prompt-tuning减少参数存储。文章探讨了prompt的位置影响,提出了INFMOE推断框架,并讨论了有效、高效预训练模型的未来方向。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

CPM-2: Large-scale Cost-effective Pre-trained Language Models

1 Introduction

  • 采用知识继承加速预训练过程,知识继承的目的是利用现有plm的知识来帮助新模型的预训练
  • 探索Prompt-Tuning。使用prompt(Lester et al.,2021)而不是fine-tuning来减少任务特定参数的存储。通过prompt,我们只需要保存提示标记的嵌入,提示标记的参数通常小于整个模型参数的0.01%。
  • 实现了一个新的推论工具:INFMOE

基于cost-effective pipeline 预训练了两个模型:CPM-2 & MoE版本

PLMs模型越来越多,使用PLMs成本增加,花费主要来源于三个方面:

  1. 大量计算资源
  2. 大的存储花费
  3. 严格的推理设备要求(Strict equipment requirement)

将预训练过程划分为三个阶段: Chinese pre-training, bilingual pre-training,and MoE pre-training

论文实验中发现:

  1. prompt的位置很关键
  2. prompt tuning 和fine-tuning结合 效果更好

Prompt

prompt tuning 在原有输入的基础上插入几个prompt tokens并只更新这些token

2 Pre-Training

2.1 Model

CPM-2:由双向的encoder和单向的decoder构成,同时使用了a vibrant of MLM:在decoder输入 随机的取代几个spans使用不同的tokens 如[X] and [Y],让decoder去预测

Original :These are issues which future studies may seek to address

Replace:These are [X] which [Y] may seek to address

Decoder output:[X] issues [Y] future studies [Z]

Z是输出的结束

15%的token被mask 平均取代的span为10

下面是与CPM-1的比较

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值