BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

最新推荐文章于 2025-04-26 15:53:25 发布

与光i

最新推荐文章于 2025-04-26 15:53:25 发布

阅读量4.5k

点赞数

文章标签：深度学习

本文链接：https://blog.youkuaiyun.com/dawnyi_yang/article/details/123615932

版权

BERT是一种预训练语言模型，利用 masked language model (MLM) 和 next sentence prediction (NSP) 进行训练。模型结构包含多层Transformer，生成双向语言表征。预训练后只需添加输出层即可适应多种下游任务。实验显示BERT在GLUE和SQuAD等任务上表现出色，证明了深度双向性的价值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

BERT的全称为Bidirectional Encoder Representation from Transformers，是一个预训练的语言表征模型。它采用新的masked language model（MLM），能生成深度的双向语言表征。预训练后，只需要添加一个额外的输出层进行fine-tune，就可以在各种各样的下游任务中取得state-of-the-art的表现。在这过程中并不需要对BERT进行任务特定的结构修改。

模型结构

BERT利用MLM进行预训练并且采用深层的双向Transformer组件来构建整个模型，生成能融合左右上下文信息的深层双向语言表征。如图1所示。
Alt

图1 中间BERT部分由多个Transformers堆叠在一起

论文主要介绍了两种尺寸的模型：
number of layers as L，
the hidden size as H，
the number of self-attention heads as A。
$BERT_{BASE}$ (L=12, H=768, A=12, Total Parameters=110M)
$BERT_{LARGE}$ (L=24, H=1024,A=16, Total Parameters=340M)。

输入

每一个token（图1中的粉色块）对应的表征（图1中的黄色块），单词字典是采用WordPiece算法来进行构建的。
表征由三部分组成的，分别是对应的token，分割和位置 embeddings。如图2。
Alt

图2

输出

C为分类token（[CLS]）对应最后一个Transformer的输出，[公式] 则代表其他token对应最后一个Transformer的输出。对于一些token级别的任务（如，序列标注和问答任务），就把[公式] 输入到额外的输出层中进行预测。对于一些句子级别的任务（如，自然语言推断和情感分类任务），就把C输入到额外的输出层中。

预训练

Masked Language Model（MLM）

MLM是BERT能够不受单向语言模型所限制的原因。简单来说就是以15%的概率用mask token （[MASK]）随机地对每一个训练序列中的token进行替换，然后预测出[MASK]位置原有的单词。然而，由于[MASK]并不会出现在下游任务的微调（fine-tuning）阶段，因此预训练阶段和微调阶段之间产生了不匹配。故
在每一个训练序列中以15%的概率随机地选中某个token位置用于预测，假如是第i个token被选中，则会被替换成以下三个token之一：
1）80%的时候是[MASK]。如，my dog is hairy——>my dog is [MASK]。
2）10%的时候是随机的其他token。如，my dog is hairy——>my dog is apple。
3）10%的时候是原来的token（保持不变，个人认为是作为2）所对应的负类）。如，my dog is hairy——>my dog is hairy。
再用该位置对应的 $T_i$ 去预测出原来的token（输入到全连接，然后用softmax输出每个token的概率，最后用交叉熵计算loss）。

Next Sentence Prediction（NSP）

预测两个句子是否连在一起。具体的做法是：对于每一个训练样例，在语料库中挑选出句子A和句子B来组成，50%的时候句子B就是句子A的下一句（标注为IsNext），剩下50%的时候句子B是语料库中的随机句子（标注为NotNext）。接下来把训练样例输入到BERT模型中，用[CLS]对应的C信息去进行二分类的预测。