论文标题:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》
会议:2019 Association for Computational Linguistics(ACL)
作者:Jill Burstein, Christy Doran, Thamar Solorio
一、摘要部分
1、作者提出了一个基于Transformer 名为BERT的新模型
该模型与最近(论文背景下是2018年)的模型不同,他通过左右上下文(从左到右和从右到左预测结合/双向)来预训练未标记文本的表示。因此,预训练的BERT模型(BERT预训练模型只包含transformer的encode部分,它对输入序列进行双向编码,使得模型能够考虑整个序列的上下文信息)对于不同的输出只需要进行微调即可创建出高效的模型。
2、BERT在11个自然语言处理任务上获得了极好的结果。
1)在GLUE的分数达到80.5%(提高了7.7%)
2)将MultiNLI准确度提高到86.7%(提高了4.6%)
3)SQuAD v1.1的问答测试F1分数提高至93.2(提高了1.5)
4)SQuAD v2.0的问答测试F1分数提高至83.1(提高了5.1)
二、介绍部分
1、预训练语言模型可以有效改善许多自然语言处理任务
2、将预训练语言模型应用于下游任务(针对具体应用场景而进行的定制化训练过程)有两种方法
1)基于特征的方法:
预训练模型用来提取文本的特征表示。
2)基于微调的方法:
直接在预训练模型的基础上,针对特定下游任务进行额外训练的过程。通过引入了最少的特定于任务的参数,并通过简单的方式对下游任务进行训练重新调整所有预先训练的参数。
3、作者认为,单向的语言模型限制了预训练模型能力,特别是对于微调方法,将微调方法应用于诸如问答之类标记级的任务时,将上下文与两个方向结合起来相当重要
4、作者通过提出BERT(基于transformer的双向编码器)来改进基于微调的方法
受到完形填空任务(想想英语完形填空题是怎么做的,考虑上下文、语境巴拉巴拉的)的启发,BERT使用”掩码语言模型“(MLM)(屏蔽输入中的一些词,通过上下文来预测原始词汇的id)预训练来缓解单向性约束。此外,作者还使用”预测下一句“任务来联系预训练文本对的表示
5、论文贡献如下
1)证明了双向预训练对于语言表示的重要性
2)预训练表示减少了许多对处理任务框架进行大量设计的需求
3)BERT代码和预训练模型可在 这里 获取
三、相关工作部分
回顾预训练通用语言表示中广泛使用的方法
1、基于特征的无监督方法
1)学习广泛使用的单词表示几十年来一直是一个活跃的研究领域,包括非神经和神经网络方法
2)预训练的词嵌入是现代自然语言处理不可或缺的一部分,比起从头开始学习嵌入,它提供了显著的改进
3)使用从左到右的语言建模目标,可预训练词嵌入向量
4)上述方法已推广到更粗的粒度,如句子嵌入或段落嵌入
5)为了训练句子表示,之前的工作对候选的下一个句子进行排名,在给定前一个句子表示情况下生成下一个句子
6)ELMo等人在不同维度上概括了传统的词嵌入研究,他们从左到右和从右到左的语言模型中提取上下文特征。他推出了几个主要NLP基准,包含问答、情感分析和命名实体识别
7)Melamud等人提出使用LSTM(长短期记忆递归神经网络)从上下文预测某个单词来学习上下文表示,与ELMo类似,他们的模型都是基于特征的
8)完形填空任务可提高文本生成模型的鲁棒性(Robustness)