PaddlePaddle深度学习教程：BERT预训练实践指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00048/article/details/148578495

PaddlePaddle深度学习教程：BERT预训练实践指南

awesome-DeepLearning 深度学习入门课、资深课、特色课、学术案例、产业实践案例、深度学习知识百科及面试题库The course, case and knowledge of Deep Learning and AI 项目地址: https://gitcode.com/gh_mirrors/aw/awesome-DeepLearning

引言

BERT(Bidirectional Encoder Representations from Transformers)是自然语言处理领域里程碑式的模型，它通过大规模预训练和微调范式，显著提升了各类NLP任务的性能。本教程将基于PaddlePaddle深度学习框架，详细介绍BERT模型的预训练过程，包括模型构建、训练策略以及文本表示应用。

BERT模型架构概述

BERT的核心是基于Transformer编码器构建的双向语言模型。与传统的单向语言模型不同，BERT能够同时利用上下文信息进行表征学习。原始BERT提供了两种规格的模型：

BERT_BASE：12层Transformer编码器，768个隐藏单元，12个注意力头，共1.1亿参数
BERT_LARGE：24层Transformer编码器，1024个隐藏单元，16个注意力头，共3.4亿参数

为便于演示，本教程实现了一个轻量版BERT，配置为：

2层Transformer编码器
128个隐藏单元
2个注意力头

数据准备与预处理

我们使用公开文本数据集进行预训练，该数据集包含各类文章的原始文本，适合语言模型训练。数据处理流程包括：

文本分词与词表构建
生成预训练样本，包括：
- 遮蔽语言模型(Masked Language Model, MLM)样本
- 下一句预测(Next Sentence Prediction, NSP)样本

batch_size, max_len = 512, 64
train_iter, vocab = d2l.load_data_wiki(batch_size, max_len)

BERT预训练实现

模型初始化

我们使用PaddlePaddle构建BERT模型，关键参数包括词表大小、隐藏层维度、注意力头数量等：

net = d2l.BERTModel(
    len(vocab), 
    num_hiddens=128,
    num_heads=2,
    num_layers=2,
    # 其他参数...
)

损失函数设计

BERT预训练包含两个任务的联合训练：

遮蔽语言模型损失：预测被遮蔽的词元
下一句预测损失：判断两个句子是否连续

总损失是两者的加权和：

def _get_batch_loss_bert(net, loss, vocab_size, tokens_X, segments_X, ...):
    # 前向计算
    _, mlm_Y_hat, nsp_Y_hat = net(...)
    
    # MLM损失计算
    mlm_l = loss(mlm_Y_hat, mlm_Y) * mlm_weights_X
    mlm_l = mlm_l.sum() / (mlm_weights_X.sum() + 1e-8)
    
    # NSP损失计算
    nsp_l = loss(nsp_Y_hat, nsp_y)
    
    return mlm_l + nsp_l

训练过程

使用Adam优化器进行训练，监控两个任务的损失变化：

def train_bert(train_iter, net, loss, vocab_size, devices, num_steps):
    trainer = paddle.optimizer.Adam(parameters=net.parameters())
    # 训练循环
    while step < num_steps:
        # 获取批次数据
        mlm_l, nsp_l, l = _get_batch_loss_bert(...)
        # 反向传播
        l.backward()
        trainer.step()
        # 记录训练指标

多GPU训练优化

PaddlePaddle提供了简便的多GPU训练支持，只需少量修改即可实现：

导入并行训练模块
初始化并行环境
包装模型为DataParallel

import paddle.distributed as dist

# 初始化环境
dist.init_parallel_env()

# 数据并行包装
net = paddle.DataParallel(net)

执行训练时使用分布式启动命令：

python -m paddle.distributed.launch mgpubert.py

BERT文本表示应用

预训练后的BERT可用于获取文本的上下文相关表示：

def get_bert_encoding(net, tokens_a, tokens_b=None):
    # 获取token ids和segment ids
    token_ids = paddle.to_tensor(vocab[tokens])
    # 前向计算获取表示
    encoded_X, _, _ = net(token_ids, segments, valid_len)
    return encoded_X

BERT表示的关键特性：