第17章： BERT CommonLit Readability Prize比赛技术进阶详解

StarSpaceNLP667

于 2021-11-25 23:12:00 发布

阅读量364

点赞数

CC 4.0 BY-SA版权

分类专栏： Transformer NLP StarSpace 文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/StarSpaceNLP667/article/details/121549968

本文详细介绍了BERT CommonLit Readability Prize比赛中的技术进阶，涵盖了从数据处理、模型多样化、预训练策略到对抗训练、数据增强等各个方面，深入剖析了Transformer模型的优化技巧，包括RoBERTa参数结构、学习率调度、对抗训练的应用以及内存管理和计算效率提升策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1，Data Label based on pairwise comparisions between excerpts

2，Target中数字为0的原因解析

3，文本对比中的技巧

4，target和std构成联合信息

5，Coarse Validation Loop

6，private test set

7，Hold-out validation、K-fold CV validation、Bootstrap resampling

11，Diversity of models：RoBERTa、BERT、DistilRoBERTa等联合使用

12，模型参数多样化：不同来源、不同层次的参数及Hyper parameters

13，多模型结合的training和inference时间复杂度分析

14，验证集pretraining的意义分析

15，对embeddings的size的处理

16，FFN代码分析

17，warmup数学原理及实现剖析

18，learning rate scheduler剖析

19，RoBERTa模型参数结构详解

20，Data enhancement解析和实现

21，外部数据集应该用在two-phase pretraining的具体什么阶段？

22，多样性模型背后的数学原理机制深度剖析

23，多样性数据来源背后的数学原理剖析

24，多层次数据编码数学原理分析

25，One-hot编码和Dense embeddings的巧妙结合

26，对抗网络的使用分析

27，长文本处理技巧：head+tail

28，模型训练不收敛的解决技巧：动态learning rate

29，联合使用不同类别的预训练模型作为输入的Embedding层来提高收敛速度及避免过拟合背后的数学原理剖析

30，为何concatenation的embedd

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。