AI-For-Beginners项目：基于PyTorch的Transformer模型实战指南

最新推荐文章于 2025-06-18 09:32:16 发布

宋溪普Gale

最新推荐文章于 2025-06-18 09:32:16 发布

阅读量317

点赞数 4

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00088/article/details/148325972

AI-For-Beginners项目：基于PyTorch的Transformer模型实战指南

AI-For-Beginners 微软推出的人工智能入门指南项目，适合对人工智能和机器学习感兴趣的人士学习入门知识，内容包括基本概念、算法和实践案例。特点是简单易用，内容全面，面向初学者。项目地址: https://gitcode.com/gh_mirrors/ai/AI-For-Beginners

注意力机制与Transformer架构解析

在传统的循环神经网络(RNN)中，序列中的所有词对结果的影响是相同的，这导致在序列到序列任务（如命名实体识别和机器翻译）中表现欠佳。实际上，输入序列中的特定词语往往对输出有更大影响。

注意力机制通过为输入RNN的中间状态和输出RNN创建快捷连接来解决这个问题。在生成输出符号$y_t$时，我们会考虑所有输入隐藏状态$h_i$，并赋予不同的权重系数$\alpha_{t,i}$。

然而，注意力机制的引入显著增加了模型参数数量，这给RNN的扩展带来了挑战。RNN的循环特性使得批处理和并行化训练变得困难，因为序列中的每个元素都需要按顺序处理。

Transformer模型的核心优势

Transformer模型通过位置编码和注意力机制来捕获给定文本窗口中的上下文信息，而不是将每个先前预测的上下文传递到下一个评估步骤。这种架构带来了两大优势：

并行处理能力：每个输入位置独立映射到每个输出位置，使Transformer比RNN具有更好的并行性
上下文理解能力：每个注意力头可以学习单词之间的不同关系，从而提升下游NLP任务的表现

BERT（Bidirectional Encoder Representations from Transformers）是一个基于Transformer架构的大型多层网络，具有以下特点：

BERT-base有12层，BERT-large有24层
首先在大型文本语料库（公开百科数据+书籍）上进行无监督预训练
通过预测句子中的掩码词来吸收语言理解能力
可通过微调迁移到其他数据集

使用BERT进行文本分类实战

我们将展示如何使用预训练的BERT模型解决序列分类任务，以AG News数据集为例。

1. 数据准备与加载

首先加载必要的库和数据集：

import torch
import torchtext
from torchnlp import *
import transformers

train_dataset, test_dataset, classes, vocab = load_dataset()
vocab_len = len(vocab)

2. 初始化BERT分词器

使用与预训练BERT模型匹配的分词器：

bert_model = './bert'  # 本地模型路径
tokenizer = transformers.BertTokenizer.from_pretrained(bert_model)

MAX_SEQ_LEN = 128
PAD_INDEX = tokenizer.convert_tokens_to_ids(tokenizer.pad_token)
UNK_INDEX = tokenizer.convert_tokens_to_ids(tokenizer.unk_token)

3. 数据批处理

创建数据加载器并定义填充函数：

def pad_bert(b):
    v = [tokenizer.encode(x[1]) for x in b]
    l = max(map(len,v))
    return (
        torch.LongTensor([t[0] for t in b]),
        torch.stack([torch.nn.functional.pad(torch.tensor(t),(0,l-len(t)),mode='constant',value=0) for t in v])
    )

train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=8, collate_fn=pad_bert, shuffle=True)
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=8, collate_fn=pad_bert)

4. 加载预训练BERT模型

model = transformers.BertForSequenceClassification.from_pretrained(bert_model,num_labels=4).to(device)

5. 模型训练

由于BERT已经预训练过，我们使用较小的学习率：

optimizer = torch.optim.Adam(model.parameters(), lr=2e-5)

model.train()
for labels,texts in train_loader:
    labels = labels.to(device)-1     
    texts = texts.to(device)
    loss, out = model(texts, labels=labels)[:2]
    # 反向传播和优化步骤...

6. 模型评估

model.eval()
acc = 0
for labels,texts in test_loader:
    labels = labels.to(device)-1     
    texts = texts.to(device)
    _, out = model(texts, labels=labels)[:2]
    # 计算准确率...
print(f"Final accuracy: {acc.item()/i}")