PaddlePaddle深度学习教程：BERT预训练模型全面解析

原创于 2025-06-12 09:00:51 发布

· 323 阅读

版权

PaddlePaddle深度学习教程：BERT预训练模型全面解析

awesome-DeepLearning 深度学习入门课、资深课、特色课、学术案例、产业实践案例、深度学习知识百科及面试题库The course, case and knowledge of Deep Learning and AI 项目地址: https://gitcode.com/gh_mirrors/aw/awesome-DeepLearning

引言

在自然语言处理(NLP)领域，预训练语言模型已经成为推动技术进步的核心动力。BERT作为其中的里程碑式模型，由Google在2018年提出后迅速成为NLP任务的基础架构。本文将全面解析BERT模型的原理、架构、训练方式及应用场景，帮助读者深入理解这一重要模型。

1. BERT模型概述

BERT(Bidirectional Encoder Representation from Transformers)是一种基于Transformer架构的预训练语言模型，其核心创新在于双向上下文编码能力。传统语言模型如GPT仅能单向(从左到右)处理文本，而BERT能够同时利用单词的左右上下文信息，显著提升了语义理解能力。

BERT在发布时在11项NLP任务上创造了新的state-of-the-art记录，包括：

将GLUE基准提升至80.4%(绝对提升7.6%)
MultiNLI准确率达到86.7%(绝对提升5.6%)
在SQuAD 1.1阅读理解测试中全面超越人类表现

2. BERT模型架构详解

2.1 Transformer编码器结构

BERT采用了Transformer的编码器部分作为基础架构，完全摒弃了传统的RNN和CNN结构。其核心是多层自注意力(Self-Attention)机制，能够直接建模任意两个单词之间的关系，有效解决了长距离依赖问题。

BERT-base和BERT-large是两种主要变体：

BERT-base：12层Transformer，隐藏层维度768，12个注意力头
BERT-large：24层Transformer，隐藏层维度1024，16个注意力头

2.2 输入表示

BERT的输入嵌入由三部分组成：

Token Embeddings：词向量表示，使用WordPiece分词
Segment Embeddings：区分句子A和句子B
Position Embeddings：学习得到的位置编码

特殊符号说明：

[CLS]：分类任务使用的特殊标记
[SEP]：句子分隔符
[MASK]：掩码符号，用于预训练

2.3 注意力机制可视化分析

通过可视化BERT的注意力模式，研究者发现了6种典型的注意力模式：

注意下一个词：类似RNN的后向传播
注意前一个词：类似RNN的前向传播
注意相同/相关词：捕捉词语间语义关联
跨句注意相同词：支持句子关系理解
注意预测性词语：如"straw"注意"##berries"
注意分隔符：传递句子级信息

这些模式共同构成了BERT强大的语义表示能力。

3. BERT的预训练策略

BERT采用两种创新的预训练任务：

3.1 掩码语言模型(MLM)

MLM随机掩盖输入中15%的词语，要求模型预测被掩盖的词。具体策略：

80%替换为[MASK]
10%替换为随机词
10%保持不变

这种策略赋予BERT文本纠错能力，同时缓解预训练与微调时的输入不匹配问题。

3.2 下一句预测(NSP)

NSP任务判断两个句子是否连续，帮助模型学习句子间关系。训练数据中：

50%为真实连续句子(IsNext)
50%为随机组合句子(NotNext)

值得注意的是，后续研究表明NSP任务可能并非必要，许多改进模型如RoBERTa已移除此任务。

4. BERT的微调应用

预训练后的BERT可通过微调适应各种NLP任务：

4.1 句子对分类任务

MNLI：文本蕴含识别
QQP：问题等价判断
STS-B：语义相似度评分

4.2 单句分类任务

SST-2：情感分析
CoLA：语言可接受性判断

4.3 问答与序列标注

SQuAD：机器阅读理解
CoNLL-2003 NER：命名实体识别

微调时通常只需添加简单的任务特定输出层，利用[CLS]标记的表示或各token的表示完成预测。

5. BERT与相关模型对比

5.1 BERT vs GPT vs ELMo

| 特性 | BERT | GPT | ELMo | |------|------|-----|------| | 架构 | Transformer编码器 | Transformer解码器 | 双向LSTM | | 上下文 | 双向 | 单向 | 浅层双向 | | 训练方式 | 微调 | 微调 | 特征提取 |