aibert

本文探讨了BERT模型的三个主要改造方法:1) 词嵌入向量参数的因式分解,减小了参数量;2) 跨层参数共享,特别是注意力层的参数共享,有效减少了模型复杂度;3) 引入段落连续性任务,通过正负例对比增强模型对上下文连续性的理解。此外,还提到了移除dropout、使用LAMB优化器加速训练以及应用n-gram提升遮蔽语言模型的效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

对bert的三大改造

《1词嵌入向量参数的因式分解

O(V * H) to O(V * E + E * H) 参数量少了几十倍

《2跨层参数共享

参数共享能显著减少参数。共享可以分为全连接层、注意力层的参数共享;注意力层的参数对效果的减弱影响小一点。

《3段落连续性任务

。正例,使用从一个文档中连续的两个文本段落;负例,使用从一个文档中连续的两个文本段落,但位置调换了

其他改进变化:

《1去掉drpout

《2为加快训练速度,使用LAMB做为优化器

《3使用n-gram(uni-gram,bi-gram, tri-gram)来做遮蔽语言模型

Bert为了加速训练,前90%的steps使用了128个tokens的短句,最后10%才使用了512个词的长句来训练学习位置嵌入;而ALBert只有10%的情况下采用了短于512个tokens的句子进行训练。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值