NLP 八股 DAY1：BERT

原创

已于 2025-02-15 00:27:41 修改 · 1.1k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #bert #人工智能

于 2025-02-15 00:27:03 首次发布

BERT全称：Pre-training of deep bidirectional transformers for language understanding，即深度双向Transformer。

模型训练时的两个任务是预测句⼦中被掩盖的词以及判断输⼊的两个句⼦是不是上下句。在预训练好的BERT模型后⾯根据特定任务加上相应的⽹络，可以完成NLP的下游任务，⽐如⽂本分类、机器翻译等。Masked LM和Next Sentence Prediction。

只使⽤了transformer的encoder部分，它的整体框架是由多层transformer的encoder堆叠⽽成的。每⼀层的encoder则是由⼀层muti-head-attention和⼀层feed-forword组成，⼤的模型有24层，每层16个attention heads，⼩的模型12层，每层12个attention heads。feed-forward的维度是4 * d_model也就是4 * 768 = 3072。

在BERT中，输⼊的向量是由三种不同的embedding求和⽽成，分别是： a. wordpiece embedding：词嵌⼊，WordPiece是指将单词划分成⼀组有限的公共⼦词单元，能在单词的有效性和字符的灵活性之间取得⼀个折中的平衡； b. position embedding：不是三⻆函数⽽是⼀个跟着训练学出来的向量，也就是nn.Embedding； c. segment embedding：⽤于区分两个句⼦的向量表示。这个在问答等⾮对称句⼦中是⽤区别的。

BERT常⻅⾯试问题：bert的具体⽹络结构，以及训练过程，bert为什么⽕，它在什么的基础上改进了些什么？

答：bert是⽤了transformer的encoder侧的