- 博客(2)
- 收藏
- 关注
原创 对话目标划分
使用更大的mini-batches和更多的数据进行训练。移除了BERT中使用的“下一句预测(NSP)”目标。对更长的序列进行训练,并使用更大的字节对编码(BPE)词汇表在训练过程中进行动态掩码,即在训练时实时生成掩码模式,而不是固定的。这些改进使RoBERTa在各种自然语言理解任务上表现更佳。
2024-05-28 17:10:35
296
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人