预训练编码器:BERT语言模型详解
1. BERT模型训练步骤概述
BERT模型的训练主要分为两个步骤:
- 第一步 :预训练模型,主要包括语料库的收集与准备以及语言模型的创建。
- 第二步 :让模型适应特定应用,如文本分类或命名实体识别。此步骤需要一个标注数据集(通常规模较小),用于进一步精细调整模型参数,这一步也被称为微调。
为了详细说明这些步骤,我们将以《奥德赛》的前两句话为例:
Tell me, O Muse, of that ingenious hero
Many cities did he visit
2. 预训练任务
预训练步骤包含两个同时进行的分类任务,每个输入样本是一对句子(实际上是单词序列):
- 掩码语言模型(Masked Language Model,MLM) :将输入样本中的部分标记替换为特定的掩码标记 [MASK] ,然后训练模型预测这些被掩码单词的值。例如:
Input: Tell me , O [MASK] , of that ingenious [MASK]
Predictions:
Muse
hero
- 下一句预测(Next Sentence Prediction,NSP)
超级会员免费看
订阅专栏 解锁全文
1168

被折叠的 条评论
为什么被折叠?



