BERT模型详解-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_43910910/article/details/117782264

项目实训（七）

bert初体验

什么是bert

BERT的全称是Bidirectional Encoder Representation from Transformers。是2018年10月由Google AI研究院提出的一种预训练模型。

官方代码和预训练模型

Github: https://github.com/google-research/bert

结构

bert在结构方面实际上并没有太多创新，使用了双层transformer结构。（transformer结构我会在下篇博客进行解释）
在这里插入图片描述
官网最开始提供了两个版本，L表示的是transformer的层数，H表示输出的维度，A表示mutil-head attention的个数

预训练

BERT的预训练阶段包括两个任务，一个是Masked Language Model，还有一个是Next Sentence Prediction。

Masked Language Model

MLM可以理解为完形填空，作者会随机mask每一个句子中15%的词，用其上下文来做预测，例如：my dog is hairy → my dog is [MASK]

此处将hairy进行了mask处理，然后采用非监督学习的方法预测mask位置的词是什么，但是该方法有一个问题，因为是mask15%的词，其数量已经很高了，这样就会导致某些词在fine-tuning阶段从未见过，为了解决这个问题，作者做了如下的处理：

80%的时间是采用[mask]，my dog is hairy → my dog is [MASK]

10%的时间是随机取一个词来代替mask的词，my dog is hairy -> my dog is apple

10%的时间保持不变，my dog is hairy -> my dog is hairy

transformer要保持对每个输入token分布式的表征，否则Transformer很可能会记住这个[MASK]就是"hairy"，因此需要使用随机词mask。至于使用随机词带来的负面影响，文章中解释说,所有其他的token(即非"hairy"的token)共享15%*10% = 1.5%的概率，其影响是可以忽略不计的。Transformer全局的可视，又增加了信息的获取，但是不让模型获取全量信息。
注意：

有参数dupe_factor决定数据duplicate的次数。

其中，create_instance_from_document函数，是构造了一个sentence-pair的样本。

对每一句，先生成[CLS]+A+[SEP]+B+[SEP]，有长（0.9）有短（0.1），再加上mask，然后做成样本类object。

create_masked_lm_predictions函数返回的tokens是已经被遮挡词替换之后的tokens

masked_lm_labels则是遮挡词对应位置真实的label。

Next Sentence Prediction

选择一些句子对A与B，其中50%的数据B是A的下一条句子，剩余50%的数据B是语料库中随机选择的，学习其中的相关性，添加这样的预训练的目的是目前很多NLP的任务比如QA和NLI都需要理解两个句子之间的关系，从而能让预训练的模型更好的适应这样的任务。

Bert先是用Mask来提高视野范围的信息获取量，增加duplicate再随机Mask，这样跟RNN类方法依次训练预测没什么区别了除了mask不同位置外；

全局视野极大地降低了学习的难度，然后再用A+B/C来作为样本，这样每条样本都有50%的概率看到一半左右的噪声；

但直接学习Mask A+B/C是没法学习的，因为不知道哪些是噪声，所以又加上next_sentence预测任务，与MLM同时进行训练，这样用next来辅助模型对噪声/非噪声的辨识，用MLM来完成语义的大部分的学习。