基于BERT的自然语言推理微调实战指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00021/article/details/148362028

基于BERT的自然语言推理微调实战指南

d2l-en d2l-ai/d2l-en: 是一个基于 Python 的深度学习教程，它使用了 SQLite 数据库存储数据。适合用于学习深度学习，特别是对于需要使用 Python 和 SQLite 数据库的场景。特点是深度学习教程、Python、SQLite 数据库。项目地址: https://gitcode.com/gh_mirrors/d2/d2l-en

自然语言推理(Natural Language Inference, NLI)是自然语言处理中的一项重要任务，旨在判断两个句子之间的逻辑关系。本文将介绍如何使用预训练的BERT模型，在SNLI数据集上进行微调，实现高效的NLI任务解决方案。

自然语言推理任务概述

自然语言推理任务需要判断一个前提(premise)和一个假设(hypothesis)之间的逻辑关系，通常分为三类：

蕴含(entailment)：前提支持假设
矛盾(contradiction)：前提与假设矛盾
中性(neutral)：前提与假设无关

BERT模型微调架构

与从头训练模型不同，BERT微调采用以下架构：

预训练BERT模型：作为基础特征提取器
额外MLP层：在BERT输出的[CLS]标记表示上添加两层全连接网络
分类输出层：输出三类概率分布

这种架构充分利用了BERT的强大语义表示能力，同时通过少量新增参数适应特定任务。

实现步骤详解

1. 加载预训练BERT模型

我们提供两个版本的预训练BERT：

bert.base：与原始BERT基础版规模相当
bert.small：简化版，适合演示和教学

# 加载小型BERT模型
devices = d2l.try_all_gpus()
bert, vocab = load_pretrained_model(
    'bert.small', num_hiddens=256, ffn_num_hiddens=512, 
    num_heads=4, num_blks=2, dropout=0.1, max_len=512, devices=devices)

2. 准备SNLI数据集

我们自定义SNLIBERTDataset类处理数据，关键步骤包括：

对前提和假设进行分词
将两个序列组合成BERT输入格式
添加特殊标记[CLS]和[SEP]
截断过长的序列对
生成token IDs、segment IDs和有效长度

class SNLIBERTDataset(torch.utils.data.Dataset):
    def __init__(self, dataset, max_len, vocab=None):
        # 初始化处理
        ...
    
    def _truncate_pair_of_tokens(self, p_tokens, h_tokens):
        # 保留[CLS]和两个[SEP]的位置
        while len(p_tokens) + len(h_tokens) > self.max_len - 3:
            if len(p_tokens) > len(h_tokens):
                p_tokens.pop()
            else:
                h_tokens.pop()

3. 构建BERT分类器

class BERTClassifier(nn.Module):
    def __init__(self, bert):
        super(BERTClassifier, self).__init__()
        self.encoder = bert.encoder  # 共享BERT编码器
        self.hidden = bert.hidden    # 共享隐藏层
        self.output = nn.LazyLinear(3)  # 新增输出层
        
    def forward(self, inputs):
        tokens_X, segments_X, valid_lens_x = inputs
        encoded_X = self.encoder(tokens_X, segments_X, valid_lens_x)
        # 使用[CLS]标记的表示进行分类
        return self.output(self.hidden(encoded_X[:, 0, :]))

4. 模型训练与评估

我们使用Adam优化器和交叉熵损失函数进行训练：

lr, num_epochs = 1e-4, 5
trainer = torch.optim.Adam(net.parameters(), lr=lr)
loss = nn.CrossEntropyLoss(reduction='none')
d2l.train_ch13(net, train_iter, test_iter, loss, trainer, num_epochs, devices)