RoBERTa VS BERT

RoBERTa通过对BERT预训练方法进行改进,包括动态mask、调整输入格式、增大batch size、使用byte-level BPE及增加训练时间和数据集,实现了预训练模型性能的显著提升。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

RoBERTa- A Robustly Optimized BERT Pretraining Approach

在BERT模型的基础上,做了一些改进,提升了预训练模型的性能。

  • 把静态mask改成动态mask
    BERT中在数据预处理阶段,把数据集复制10份,然后进行MASK,也就是说原始数据集的每个句子都进行10次不同的MASK,但依然会在训练中出现重复。比如Epoch=40,那么每个相同的MASK会被重复训练4次。
    而RoBERTa采用动态mask,每次把squence输入模型时,进行MASK,使得每次训练的MASK都不同。

  • 调整输入格式和NSP任务
    考虑了四种格式:
    在这里插入图片描述
    发现去掉NSP loss之后性能有所提升;由于FULL-SENTENCES需要变大小的batch,所以采用DOC-SENTENCES形式

  • 调大batch size
    BERT用256,RoBERTa用8k

  • 把character-level BPE 换成byte-level BPE

  • 训练时间更长

  • 用更多训练数据集

总之,本文证明了BERT的预训练方法还有很多可以深挖的地方,在原先的基础上稍作调整又取得了SOTA。

传送门

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值