预训练模型比较(整理网上资源,侵删)

这篇博客详细介绍了BERT、RoBERTa和ALBERT这三种预训练语言模型的发展和改进。BERT通过NSP和MLM任务,以及WordPiece编码,奠定了基础。RoBERTa在BERT的基础上增加了语料规模,使用动态mask,并移除了NSP任务,优化了训练策略。而ALBERT则引入了词向量因式分解和参数共享,以及SOP任务,以减少模型大小并提高效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

BERT:

        1. 使用NSP和MLM两个任务

        2. 使用WordPiece方式(基于BPE算法的改进)构建词表

        3. 使用transformer的encoder结构,但在transformer的基础上,使用的是position embedding

        4. transformer的encoder和decoder的block都是6个,8个头,512的embedding size,而bert base的参数为12个block, hidden_size为768,共有12个头。bert large的参数为24个block, hidden_size为1024,有16个头。

RoBERTa:

在bert基础上:

        1. 语料从16G扩充到160G

        2. 使用BPE编码

        3. 使用动态mask: 预先将数据复制n份,然后每份都进行随机的mask。(hugging face使用的是在每个epoch使用不同的mask策略)

        4. Adam优化器的beta2由0.999变为了0.98;bs由256增大到2k/8k

        5.移除NSP任务

        6. 混合精度训练

注:WordPiece和BPE的区别

        两者都是先将word切分为character

        WordPiece:通过语言模型的最大似然合并char

        BPE:通过连着出现的频率合并char

ALBERT:

在bert基础上:

        1.  词向量因式分解

        2. 参数共享: 每一个Block内的参数共享

        3. 引入SOP任务:正例与NSP相同,负例仅仅调换两个句子的顺序

        

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值