[博学谷学习记录]超强总结，用心分享|人工智能深度学习BERT模型总结分享

最新推荐文章于 2025-04-16 22:30:00 发布

AAALice0.0

最新推荐文章于 2025-04-16 22:30:00 发布

阅读量1k

点赞数

文章标签：人工智能深度学习学习

本文链接：https://blog.youkuaiyun.com/weixin_46515036/article/details/129237743

版权

本文详细介绍了BERT模型的优缺点，包括其高效的Transformer架构和双向上下文理解，以及模型庞大、资源消耗高的问题。此外，还深入探讨了BERT在MLM任务中采用80%, 10%, 10%策略的原因，以及如何处理长文本的训练样本构造方法。" 103038922,9131569,C++中的struct与union：定义、用途与内存占用,"['C++', '内存', '结构体', '联合体']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. BERT模型优缺点

1.1 BERT的优点

通过预训练, 加上Fine-tunning, 在11项NLP任务上取得最优结果.
BERT的根基源于Transformer, 相比传统RNN更加高效, 可以并行化处理同时能捕捉长距离的语义和结构依赖.
BERT采用了Transformer架构中的Encoder模块, 不仅仅获得了真正意义上的bidirectional context, 而且为后续微调任务留出了足够的调整空间

1.2 BERT的缺点

BERT模型过于庞大, 参数太多, 不利于资源紧张的应用场景, 也不利于上线的实时处理.
BERT目前给出的中文模型中, 是以字为基本token单位的, 很多需要词向量的应用无法直接使用. 同时该模型无法识别很多生僻词, 只能以UNK代替.
BERT中第一个预训练任务MLM中, [MASK]标记只在训练阶段出现, 而在预测阶段不会出现, 这就造成了一定的信息偏差, 因此训练时不能过多的使用[MASK], 否则会影响模型的表现.
按照BERT的MLM任务中的约定, 每个batch数据中只有15%的token参与了训练, 被模型学习和预测, 所以BERT收敛的速度比left-to-right模型要慢很多(left-to-right模型中每一个token都会参与训练).