相较于Bert
改进版的RoBERTa到底改进了什么?
-
- 静态Masking vs 动态Masking
-
- with NSP vs without NSP
-
- 更大的mini-batch
- 原本的BERTbase 的batch size是256,训练1M个steps。RoBERTa的batch size为8k。
-
- 更多的数据,更长时间的训练
-
- BPE编码
RoBERTa是BERT的一个增强版本,主要改进包括动态Masking策略替代静态Masking,移除Next Sentence Prediction(NSP)任务,增大mini-batch至8k,并使用更多数据进行更长时间的训练。这些改变旨在提升模型的预训练效果和下游任务性能。
相较于Bert
改进版的RoBERTa到底改进了什么?
6045
3721
2604

被折叠的 条评论
为什么被折叠?