BERT论文精读理解

BERT,由Google AI团队提出的深度双向预训练模型,通过改进的预训练任务MLM和Next Sentence Prediction,提升了NLP任务的性能。BERT在多个数据集上实现了state-of-the-art效果,对Transformer架构进行了创新,改变了预训练和微调的方式。

Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

该篇论文被评选为2019 NAACL的最佳论文,由Google AI团队在2018年10月推出。

一、论文背景。

语言模型(language model)的预训练可以提高NLP任务的性能。无监督预训练的方法主要分为两种,feature-based和fine-tuning。Feature-based方法使用task-specific结构从预训练的表示中提取特征,如ELMo,而fine-tuning方法引入最小task-specific参数,然后微调预训练的task-specific参数以训练后续任务,如OpenAI GPT。

但在之前的相关研究中,预训练阶段均使用了相同的目标函数,并使用单向的语言模型学习一般性的语言表示,这大大地降低了预训练的表示能力,尤其是fine-tuning方法。

因此,本文提出了改善fine-tuning预训练的BERT模型,即基于Transformer的双向编码表示(Bidrectional Encoder Representations from Transformers),通过引入新的预训练目标任务MLM(masked language model),从而预训练双向Transformer,同时引入"next sentence prediction"任务预训练配对文本的表示。

二、BERT实现。

2.1 模型架构

BERT基于原始的Transformer实现了一个多层的双向Transformer编码(非完整的Transformer,只包含编码部分),并衍生出两个不同大小的模型,分别为110M参数的BERTBASE_{BASE}BASE(与OpenAI GPT的模型大小相同)和340M参数的BERTLARGE_{LARGE}LARGE。BERT架构如下图所示。

Alt

2.2 输入表示

BERT输入表示:将单一或成对的文本句子(sentence)转换成一个token序列。每一个token由corresponding token、segment embedding和position embedding相加得到(如下图所示)。

Alt
Token生成细节:

  1. 句子(sentence)可以使任意长度的连续文本,并非语言学上的句子。
  2. 基于30000 token单词的WordPiece embeddings得到。
  3. 每个序列的第一个token均为特殊的“分类”表示[cls][cls][cls]
  4. 成对的句子,第一个句子是EAE_AEA,第二个句子是EBE_BEB,中间使用[sep][sep][sep</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值