一、BERT整体概要
Bert由两部分组成:
- 预训练(Pre-training):通过两个联合训练任务得到Bert模型
- 微调(Fine-tune):在预训练得到bert模型的基础上进行各种各样的NLP
二、预训练
输入经过bert encoder层编码后,进行MLM任务和NSP任务,产生联合训练的损失函数从而迭代更新整个模型中的参数。
Bert Encoder:采用默认的12层transformer encoder layer对输入进行编码
MLM任务:掩蔽语言模型,遮盖句子中若干词,用周围词去预测遮盖的词
NSP任务:下个句子预测,判断句子B在文章中是否属于句子A的下一句
2.1 BERT Encoder
如何对输入进行编码
句首+ < CLS > ,句尾和两个句子之间+ < SEP >
句子级别的编码:用来区分每个句子,一个句子的编码是相同的
位置编码:其实就是数字编码123456789
经过编码器编码后输出张量的形状: