一、前言
本文章作为学习2023年《李宏毅机器学习课程》的笔记,感谢台湾大学李宏毅教授的课程,respect!!!
读这篇文章必须先了解self-attention、Transformer,可参阅我其他文章。
二、大纲
- BERT简介
- self-supervised learning(自督导式学习)
- BERT原理
- BERT应用
- BERT为啥有效?
三、BERT简介
-
BERT (Bidirectional Encoder Representations from Transformers)
-
BERT 是由 Google AI 于 2018年10月 提出的预训练语言模型,其论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》在 arXiv 发布,引起了 NLP 领域的巨大关注。
-
BERT 的核心思想是基于 Transformer 结构,并采用 双向(Bidirectional) 预训练机制,极大提升了自然语言理解(NLU)任务的性能。
-
参数量对比
模型 | 参数量 |
---|