项目实训(七)
bert初体验
什么是bert
BERT的全称是Bidirectional Encoder Representation from Transformers。是2018年10月由Google AI研究院提出的一种预训练模型。
官方代码和预训练模型
Github: https://github.com/google-research/bert
结构
bert在结构方面实际上并没有太多创新,使用了双层transformer结构。(transformer结构我会在下篇博客进行解释)
官网最开始提供了两个版本,L表示的是transformer的层数,H表示输出的维度,A表示mutil-head attention的个数
预训练
BERT的预训练阶段包括两个任务,一个是Masked Language Model,还有一个是Next Sentence Prediction。
Masked Language Model
MLM可以理解为完形填空,作者会随机mask每一个句子中15%的词,用其上下文来做预测,例如:my dog is hairy → my dog is [MASK]
此处将hairy进行了mask处理,然后采用非监督学习的方法预测mask位置的词是什么,但是该方法有一个问题,因为是mask15%的词,其数量已经很高了,这样就会导致某些词在fine-tuning阶段从未见过,为了解决这个问题,作者做了如下的处理:
80%的时间是采用[mask],my dog is hairy → my dog is [MASK]
10%的时间是随机取一个词来代替mask的词,my dog is hairy -> my dog is apple
10%的时间保持不变,my dog is hairy -> my dog is hairy
transformer要保持对每个输入token分布式的表征,否则Transformer很可能会记住这个[MASK]就是"hairy",因此需要使用随机词mask。至于使用随机词带来的负面影响,文章中解释说,所有其他的token(即非"hairy"的token)共享15%*10% = 1.5%的概率,其影响是可以忽略不计的。Transformer全局的可视,又增加了信息的获取,但是不让模型获取全量信息。
注意:
有参数dupe_factor决定数据duplicate的次数。
其中,create_instance_from_document函数,是构造了一个sentence-pair的样本。
对每一句,先生成[CLS]+A+[SEP]+B+[SEP],有长(0.9)有短(0.1),再加上mask,然后做成样本类object。
create_masked_lm_predictions函数返回的tokens是已经被遮挡词替换之后的tokens
masked_lm_labels则是遮挡词对应位置真实的label。
Next Sentence Prediction
选择一些句子对A与B,其中50%的数据B是A的下一条句子,剩余50%的数据B是语料库中随机选择的,学习其中的相关性,添加这样的预训练的目的是目前很多NLP的任务比如QA和NLI都需要理解两个句子之间的关系,从而能让预训练的模型更好的适应这样的任务。
Bert先是用Mask来提高视野范围的信息获取量,增加duplicate再随机Mask,这样跟RNN类方法依次训练预测没什么区别了除了mask不同位置外;
全局视野极大地降低了学习的难度,然后再用A+B/C来作为样本,这样每条样本都有50%的概率看到一半左右的噪声;
但直接学习Mask A+B/C是没法学习的,因为不知道哪些是噪声,所以又加上next_sentence预测任务,与MLM同时进行训练,这样用next来辅助模型对噪声/非噪声的辨识,用MLM来完成语义的大部分的学习。
优缺点
优点
1.Transformer Encoder因为有Self-attention机制,因此BERT自带双向功能
2.因为双向功能以及多层Self-attention机制的影响,使得BERT必须使用Cloze版的语言模型Masked-LM来完成token级别的预训练
3.为了获取比词更高级别的句子级别的语义表征,BERT加入了Next Sentence Prediction来和Masked-LM一起做联合训练
4.为了适配多任务下的迁移学习,BERT设计了更通用的输入层和输出层
5.微调成本小
缺点
1.task1的随机遮挡策略略显粗犷
2.[MASK]标记在实际预测中不会出现,训练时用过多[MASK]影响模型表现;
3.每个batch只有15%的token被预测,所以BERT收敛得比left-to-right模型要慢(它们会预测每个token)
4.BERT对硬件资源的消耗巨大
参考
https://blog.youkuaiyun.com/jiaowoshouzi/article/details/89073944
http://www.itcast.cn/news/20200907/13593265501.shtml