BERT的出现使我们终于可以在一个大数据集上训练号一个深的神经网络,应用在很多NLP应用上面。
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
深的双向Transformer
摘要(Abstract):与别的文章的区别是什么?效果有多好?
-
与ELMo的区别:ELMo基于RNN,双向,在运用到下游的任务时需要做出一些调整。BERT基于Transformer,只需要改最上层。
-
与GPT的区别:GPT基于Transformer解码器,单向,用左边的上下文信息预测。BERT基于Transformer编码器双向。
BERT的好处:简单且效果好,在11个NLP任务上都比较好。
引言(Introduction):语言模型的简单介绍;摘要第一段的扩充;
在使用预训练模型做特征表示的时候,通常有两种策略:
-
基于特征
ELMo,对于每一个下游任务,构造一个与之相关的神经网络,RNN架构,将预训练好的(比如一个词嵌入矩阵)作为额外特征一起作为输入,输入到模型里面,达到训练模型比较容易的目的。
简单来说:这是大多数NLP最常用的使用预训练模型的方法,把学到的特征和输入一起放进去。
-
基于微调
GPT,引入了最小的特定于任务的参数,预训练好的参数进行微调
这两种方法在预训练及之后都使用相同的目标函数(GPT也不全是吧),且都使用单向的语言模型进行学习。(预测未来)
Bert主要想法:预测未来---->完形填空,用masked language model,带掩码的语言模型
除此之外,Bert还关注了句子层面的信息:给两个句子,判断这两个句子是不是相邻的。(NSP)
贡献点:双向信息的重要性(句子从左看到右,从右看到左)
在BERT上做微调效果很好
代码开源
结论(Conlusion):
无监督的预训练很重要(在计算机视觉领域,在没有标签的数据集上做训练比在有标签的数据集上做训练效果会更好);

BERT模型通过预训练和微调在NLP领域展现出强大性能,其核心在于使用多层双向Transformer编码器。与ELMo(基于RNN)和GPT(基于Transformer解码器)不同,BERT利用 masked language model 和 next sentence prediction 任务,捕捉到语言的双向信息。在预训练阶段,BERT以15%的概率随机替换词元并预测被遮掩的词,而在微调阶段则针对特定任务进行调整。该模型在11项NLP任务上表现出色,并开源了代码,推动了无监督预训练在NLP领域的广泛应用。
最低0.47元/天 解锁文章
177

被折叠的 条评论
为什么被折叠?



