Re63：读论文 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT预训练模型：深度双向Transformer在语言理解中的应用与实验

最新推荐文章于 2025-03-17 12:00:00 发布

原创最新推荐文章于 2025-03-17 12:00:00 发布 · 1k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#bert #人工智能 #深度学习 #LLM #大规模预训练语言模型 #大模型 #自然语言处理

人工智能学习笔记专栏收录该内容

277 篇文章

订阅专栏

本文介绍了BERT模型，一种预训练的深度双向Transformer，用于语言理解和多种任务的微调。文章探讨了BERT的结构、预训练目标（MLM和NSP）、以及在文本分类、抽取式QA和常识推理任务中的性能。

诸神缄默不语-个人优快云博文目录
 诸神缄默不语的论文阅读笔记和分类

论文全名：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
ArXiv下载地址：https://arxiv.org/abs/1810.04805

官方GitHub项目：google-research/bert: TensorFlow code and pre-trained models for BERT

本文是2019年NAACL论文。提出了BERT……别的背景懒得介绍了。

Transformer基础可参考我撰写的博文：Transformer原理纯享版

调用BERT的代码我写过好几篇博文了，看目录吧。
原版BERT是英文模型，但是现在有很多语言的BERT模型了。

1. 背景

当时的预训练模型已经取得了显著成效。分为两种：

feature-based
ELMo
用预训练表征作为特征，对不同的任务使用不同的模型结构
fine-tuning
OpenAI GPT（Re45：读论文 GPT-1 Improving Language Understanding by Generative Pre-Training）
模型包含少量task-specific（就是你看图能发现GPT-1的下游任务微调还是有点复杂，不能像BERT、GPT-2这样一个模型干一切，就只换个输出头（T5和GPT-3都不换了））。在下游任务微调所有参数

这两种模型预训练时的损失函数都是单向语言模型，学习生成式语言表征。总之本文写了一些作者觉得这种方法的不好之处，GPT只用到前文表征，ELMo只对2个反向的、分别训练的单向LM的表征结合起来（BERT不采用类似的结构，因为缺点：1. 代价高 2. 对QA不直觉 3. 表现力不够）。

预训练语言模型表示向量：

无监督基于特征（（非）基于神经网络）的词向量→粒度更粗的表征
ElMo context2vec maskgan
无监督基于微调
GPT-1
从有监督数据迁移学习（经典ImageNet）

BERT生成的token表征是动态的。它共享/迁移的是模型的架构和参数/权重。

2. BERT整体结构

在这里插入图片描述

BERT可以获取双向的上下文信息，只需要在预训练模型的基础上接一个输出头就可以应用于不同的任务。

预训练 + 微调范式
预训练损失函数是平均MLM似然的总和 + NSP似然的平均值

模型是多层双向Transformer encoder

L：Transformer block数
H：隐藏层维度
A：attention头数
BERT $_{\text{BASE}}$ L=12, H=768, A=12, Total Parameters=110M
BERT $_{\text{LARGE}}$ L=24, H=1024, A=16, Total Parameters=340M
当年这个世界多么淳朴，大模型只有340M……