BERT论文精读理解

最新推荐文章于 2025-09-12 23:40:37 发布

原创

最新推荐文章于 2025-09-12 23:40:37 发布 · 2.1k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#BERT

BERT，由Google AI团队提出的深度双向预训练模型，通过改进的预训练任务MLM和Next Sentence Prediction，提升了NLP任务的性能。BERT在多个数据集上实现了state-of-the-art效果，对Transformer架构进行了创新，改变了预训练和微调的方式。

Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

该篇论文被评选为2019 NAACL的最佳论文，由Google AI团队在2018年10月推出。

一、论文背景。

语言模型（language model）的预训练可以提高NLP任务的性能。无监督预训练的方法主要分为两种，feature-based和fine-tuning。Feature-based方法使用task-specific结构从预训练的表示中提取特征，如ELMo，而fine-tuning方法引入最小task-specific参数，然后微调预训练的task-specific参数以训练后续任务，如OpenAI GPT。

但在之前的相关研究中，预训练阶段均使用了相同的目标函数，并使用单向的语言模型学习一般性的语言表示，这大大地降低了预训练的表示能力，尤其是fine-tuning方法。

因此，本文提出了改善fine-tuning预训练的BERT模型，即基于Transformer的双向编码表示（Bidrectional Encoder Representations from Transformers），通过引入新的预训练目标任务MLM（masked language model），从而预训练双向Transformer，同时引入"next sentence prediction"任务预训练配对文本的表示。

二、BERT实现。

2.1 模型架构

BERT基于原始的Transformer实现了一个多层的双向Transformer编码（非完整的Transformer，只包含编码部分），并衍生出两个不同大小的模型，分别为110M参数的BERT $_{BASE}$ （与OpenAI GPT的模型大小相同）和340M参数的BERT $_{LARGE}$ 。BERT架构如下图所示。

Alt

2.2 输入表示

BERT输入表示：将单一或成对的文本句子（sentence）转换成一个token序列。每一个token由corresponding token、segment embedding和position embedding相加得到（如下图所示）。

Alt
Token生成细节：

句子（sentence）可以使任意长度的连续文本，并非语言学上的句子。
基于30000 token单词的WordPiece embeddings得到。
每个序列的第一个token均为特殊的“分类”表示 $[c l s]$ 。
成对的句子，第一个句子是 $E_A$ ，第二个句子是 $E_B$ ，中间使用 $[s e p</$

最低0.47元/天解锁文章