微调BERT模型:原理与实践
1. BERT模型的输入嵌入与位置编码
BERT模型的输入嵌入和位置编码子层可以总结如下:
- 单词序列被分解为WordPiece标记。
- 在掩码语言模型训练中, [MASK] 标记会随机替换初始单词标记。
- 为了分类目的, [CLS] 分类标记会插入到序列的开头。
- 为了进行下一句预测(NSP)训练, [SEP] 标记用于分隔两个句子(片段、短语)。
- 句子嵌入会添加到标记嵌入中,使得句子A和句子B具有不同的句子嵌入值。
- 位置编码是学习得到的,不应用原始Transformer的正弦 - 余弦位置编码方法。
此外,BERT还有一些关键特性:
- BERT在多头注意力子层中使用双向注意力,为学习和理解标记之间的关系开辟了广阔的视野。
- BERT引入了无监督嵌入场景,使用无标签文本预训练模型。无监督场景迫使模型在多头注意力学习过程中更加深入地思考,这使得BERT能够学习语言的构建方式,并将这些知识应用到下游任务中,而无需每次都进行预训练。
- BERT也使用监督学习,在预训练过程中全面覆盖各种情况。
2. BERT模型的预训练与微调框架
BERT是一个两步框架,第一步是预训练,第二步是微调。
预训练可以分为两个子步骤:
- 定义模型的架构,包括层数、头数、维度等模型的构建块。
- 在掩码语言模型(MLM)和下一句预测(NSP)任务上训练模型。
微调也可以分为两个子步骤:
超级会员免费看
订阅专栏 解锁全文
9806

被折叠的 条评论
为什么被折叠?



