2018年google AI组发表的一篇文章BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding在多个自然语言处理问题上取得了很大的提升。
BERT是一个迁移学习模型,在双向深度网络Transformer (https://arxiv.org/pdf/1706.03762.pdf )的基础上做多任务学习(MLM和下个句子预测),得到预训练模型,然后在模型的最后添加一层迁移到具体的任务上去。
1、总体架构
BERT的结构类似于 OpenAI GPT,主要的区别在于BERT用了Transformer,Transformer的双向self-attention可以同时考虑左右两边的上下文信息,而GPT只用了单词(或字符)左边的上下文信息。
Google团队设计了两个BERT模型,分别是 B E R T B A S E BERT_{BASE} BERTBASE和 B E R T L A R G E BERT_{LARGE} BERTLARGE。L:Transformer层数, H:隐单元个数, A:self-attention heads 数量
- B E R T B A S E BERT_{BASE} BERTBASE: L=12, H=768, A=12, 模型大小110M
- B E R T L A R G E BERT_{LARGE} B</