预训练模型比较（整理网上资源，侵删）

qq_ y

已于 2022-07-03 21:15:29 修改

阅读量468

点赞数

文章标签：深度学习机器学习自然语言处理

于 2021-09-14 21:12:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_39667545/article/details/120235765

版权

这篇博客详细介绍了BERT、RoBERTa和ALBERT这三种预训练语言模型的发展和改进。BERT通过NSP和MLM任务，以及WordPiece编码，奠定了基础。RoBERTa在BERT的基础上增加了语料规模，使用动态mask，并移除了NSP任务，优化了训练策略。而ALBERT则引入了词向量因式分解和参数共享，以及SOP任务，以减少模型大小并提高效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

BERT：

1. 使用NSP和MLM两个任务

2. 使用WordPiece方式(基于BPE算法的改进)构建词表

3. 使用transformer的encoder结构，但在transformer的基础上，使用的是position embedding

4. transformer的encoder和decoder的block都是6个，8个头，512的embedding size，而bert base的参数为12个block， hidden_size为768，共有12个头。bert large的参数为24个block， hidden_size为1024，有16个头。

RoBERTa：

在bert基础上：

1. 语料从16G扩充到160G

2. 使用BPE编码

3. 使用动态mask: 预先将数据复制n份，然后每份都进行随机的mask。（hugging face使用的是在每个epoch使用不同的mask策略）

4. Adam优化器的beta2由0.999变为了0.98；bs由256增大到2k/8k

5.移除NSP任务

6. 混合精度训练

注：WordPiece和BPE的区别

两者都是先将word切分为character

WordPiece：通过语言模型的最大似然合并char

BPE：通过连着出现的频率合并char

ALBERT：

在bert基础上：

1. 词向量因式分解

2. 参数共享：每一个Block内的参数共享

3. 引入SOP任务：正例与NSP相同，负例仅仅调换两个句子的顺序

博客等级

码龄8年

14
原创

9
点赞

42
收藏

8
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

attention_textcnn
cathie1022: 楼主您好，我打算用Keras写textCNN+self attention，有一些问题能否向您请教一下
attention_textcnn
YQiuYing: 谢谢您
attention_textcnn
qq_ y: 您好，因为总有人问，我将这个代码文件整理到github上了，这是地址，您可以直接去下载。https://github.com/yxq9710/attention_textcnn
attention_textcnn
YQiuYing: 楼主您好，可以分享一下源码么？645214931@qq.com
attention_textcnn
hongshuminainv: 博主，您好！我最近也在做相关研究，可以给我发一份源码吗？谢谢您！邮箱： 772883932@qq.com

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。