大模型算法面试笔记——Bert

最新推荐文章于 2025-12-03 17:03:32 发布

原创最新推荐文章于 2025-12-03 17:03:32 发布 · 831 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #笔记 #bert

大模型面试笔记专栏收录该内容

3 篇文章

订阅专栏

动机

提出一个基于微调的NLP模型，预训练的模型抽取了足够多的信息，新的任务只需要增加一个简单的输出层。
Bert本质是只有编码器的Transformer，分为两类

BERT-Base: 12层，hidden size = 768，heads = 12，parameters = 110M
BERT-Large: 24层，hidden size = 1024，heads = 16，parameters = 340M
在大规模数据上训练>3B词

两类预训练任务

掩码语言模型（Masked Language Model, MLM）：挖完形填空，用[MASK]代替原词，根据左右上下文（双向）来预测原词
下一句预测：训练模型理解句子间的逻辑关系，用句子开始标记[CLS]向量对应的输出进行二分类任务（是否为下一句）

三部分Embedding
请添加图片描述
不同于Transformer的encoder-decoder架构，输入输出的句子对分别进encoder和decoder，Bert的输入是将句子对拼接起来，句子开头打[CLS]标记，句子之间（每个句子结尾）打<sep>标记。同时加入额外的片段嵌入和位置编码，片段嵌入用来区分不同的句子，位置编码非手动设计，而是可学习编码。
Bert在预训练时，用了掩码（mask），每次随机（15%概率）将一些词元换成，为了让预训练的模型可以很好的适用于通用任务，用概率来控制使用mask的部分（如80%将选中的词元变成，10%的选中词元被替换成随机词元，剩下10%保持原有词元，这里的概率是针对被选中的15%数据来算的）。

例：

80%的词被正常替换成[Mask]：my dog is hairy $→\to$ my dog is [MASK]
10%被替换成随机的词：my dog is hairy $→\to$ my dog is apple，引入噪音，防止模型对[MASK]过拟合，加强鲁棒性
10%不替换：my dog is hairy $→\to$ my dog is hairy，桥接预训练与微调任务，提高微调任务的稳定性