
NLP
南庆诗仙
这个作者很懒,什么都没留下…
展开
-
RoBERTa VS BERT
RoBERTa- A Robustly Optimized BERT Pretraining Approach在BERT模型的基础上,做了一些改进,提升了预训练模型的性能。把静态mask改成动态maskBERT中在数据预处理阶段,把数据集复制10份,然后进行MASK,也就是说原始数据集的每个句子都进行10次不同的MASK,但依然会在训练中出现重复。比如Epoch=40,那么每个相同的MA...原创 2020-04-08 10:42:20 · 2139 阅读 · 0 评论 -
Train Large, Then Compress
Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers使用大模型训练,可以摒弃传统的训练方式(等到收敛才停止训练)而stop early,因为大模型可以在更短的时间内降低验证误差。这样一来,训练收敛节省的时间弥补了大量参数的计算代价。此外,预训...原创 2020-04-08 09:50:16 · 401 阅读 · 0 评论 -
SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models
近年来,随着Transformer的出现,NLP领域的重心逐渐向迁移学习转变,也出现了BERT、GPT2等基于非监督学习的大型模型,有很多文章关注如何对其进行有效的预训练,但如何针对下游任务进行微调也是很值得研究的问题。本文介绍一篇2019年底的文章,《SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language ...原创 2020-04-04 20:17:35 · 1180 阅读 · 0 评论