带你搞懂什么是BERT模型！就这一篇就够了！

最新推荐文章于 2025-08-17 13:10:15 发布

原创最新推荐文章于 2025-08-17 13:10:15 发布 · 1.4k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#bert #人工智能 #深度学习 #AI大模型 #自然语言处理 #大模型应用 #大模型技术

部署运行你感兴趣的模型镜像

BERT

BERT是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的masked language model（MLM），以致能生成深度的双向语言表征。BERT论文发表时提及在11个NLP（Natural Language Processing，自然语言处理）任务中获得了新的state-of-the-art的结果，令人目瞪口呆。

结构

以往的预训练模型的结构会受到单向语言模型（从左到右或者从右到左）的限制，因而也限制了模型的表征能力，使其只能获取单方向的上下文信息。

而BERT利用MLM进行预训练并且采用深层的双向Transformer组件（单向的Transformer一般被称为Transformer decoder，其每一个token（符号）只会attend到目前往左的token。而双向的Transformer则被称为Transformer encoder，其每一个token会attend到所有的token。）来构建整个模型，因此最终生成能融合左右上下文信息的深层双向语言表征。

当隐藏了Transformer的详细结构后，我们就可以用一个只有输入和输出的黑盒子来表示它了：

而Transformer结构又可以进行堆叠，形成一个更深的神经网络（这里也可以理解为将Transformer encoder进行堆叠）：

最终，经过多层Transformer结构的堆叠后，形成BERT的主体结构：

BERT的输入

BERT的输入为每一个token对应的表征（图中的粉红色块就是token，黄色块就是token对应的表征），并且单词字典是采用WordPiece算法来进行构建的。为了完成具体的分类任务，除了单词的token之外，作者还在输入的每一个序列开头都插入特定的分类token（[CLS]），该分类token对应的最后一个Transformer层输出被用来起到聚集整个序列表征信息的作用。

由于BERT是一个预训练模型，其必须要适应各种各样的自然语言任务，因此模型所输入的序列必须有能力包含一句话（文本情感分类，序列标注任务）或者两句话以上（文本摘要，自然语言推断，问答任务）。

那么如何令模型有能力去分辨哪个范围是属于句子A，哪个范围是属于句子B呢？BERT采用了两种方法去解决：

1.在序列tokens中把分割token（[SEP]）插入到每个句子后，以分开不同的句子tokens。

2.为每一个token表征都添加一个可学习的分割embedding来指示其属于句子A还是句子B。

因此最后模型的输入序列tokens为下图（如果输入序列只包含一个句子的话，则没有[SEP]及之后的token）：

上面提到了BERT的输入为每一个token对应的表征，实际上该表征是由三部分组成的，分别是对应的token，分割和位置 embeddings（位置embeddings的详细解释可参见Attention Is All You Need 或 The Illustrated Transformer），如下图：

到此为止，BERT的输入已经介绍完毕，可以看到其设计的思路十分简洁而且有效。

BERT的输出

介绍完BERT的输入，实际上BERT的输出也就呼之欲出了，因为Transformer的特点就是有多少个输入就有多少个对应的输出，如下图：

C为分类token（[CLS]）对应最后一个Transformer的输出，Ti则代表其他token对应最后一个Transformer的输出。对于一些token级别的任务（如，序列标注和问答任务），就把Ti 输入到额外的输出层中进行预测。对于一些句子级别的任务（如，自然语言推断和情感分类任务），就把C输入到额外的输出层中，这里也就解释了为什么要在每一个token序列前都要插入特定的分类token。