
RoBERTa: A Robustly Optimized BERT Pretraining Approach
相比于BERT的改进:
- 用更大的batchs、更多的数据对模型进行更长时间的训练
- 去除next sentence prediction 目标
- 使用较长序列的训练
- 动态改变应用于训练数据的mask模式。

RoBERTa: A Robustly Optimized BERT Pretraining Approach
相比于BERT的改进:
3834
3059
2843

被折叠的 条评论
为什么被折叠?