Bert模型的输入,输出和预训练过程
输入:词向量,包括三部分嵌入,token,segment,position
输出:融合文本信息的向量表示
预训练过程:设置了两个训练任务
1.mlm
2.next sentence prediction
将两个任务的预测损失相加来训练
Bert模型的内部结构
核心部分是transformer(attention机制)
+
attention
+残差连接
+Layer Normalization 标准化
+线性变换 增强整个模型的表达能力
注意点
1.Bert模型的position嵌入是通过学习得到的,而一般的transformer是直接给定的