基于TorchText的文本分类实战教程：从数据预处理到LSTM模型训练-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00450/article/details/148441351

基于TorchText的文本分类实战教程：从数据预处理到LSTM模型训练

Machine-Learning-Collection A resource for learning about Machine learning & Deep Learning 项目地址: https://gitcode.com/gh_mirrors/ma/Machine-Learning-Collection

前言

TorchText是PyTorch生态中专门用于处理文本数据的强大工具库，它提供了便捷的文本预处理、批处理和数据集管理功能。本文将详细介绍如何使用TorchText处理文本数据，并构建一个LSTM模型进行文本分类任务。

环境准备

在开始之前，我们需要确保已安装以下Python库：

PyTorch：深度学习框架
TorchText：PyTorch的文本处理库
spaCy：用于文本分词

数据预处理流程

TorchText处理文本数据通常遵循以下三个核心步骤：

定义字段预处理方式：使用Field类指定如何处理文本
加载数据集：使用TabularDataset加载结构化数据文件
构建数据迭代器：使用BucketIterator进行批处理和填充

1. 定义字段(Field)

# 加载英文分词器
spacy_en = spacy.load("en")

# 定义分词函数
def tokenize(text):
    return [tok.text for tok in spacy_en.tokenizer(text)]

# 定义文本字段处理方式
quote = Field(sequential=True, use_vocab=True, tokenize=tokenize, lower=True)
# 定义分数字段处理方式
score = Field(sequential=False, use_vocab=False)

Field类的重要参数说明：

sequential：是否为序列数据（文本通常是）
use_vocab：是否构建词汇表
tokenize：指定分词函数
lower：是否转换为小写

2. 加载数据集

TorchText支持多种格式的数据文件，包括JSON、CSV和TSV：

fields = {"quote": ("q", quote), "score": ("s", score)}

# JSON格式示例
train_data, test_data = TabularDataset.splits(
    path="mydata", 
    train="train.json", 
    test="test.json", 
    format="json", 
    fields=fields
)

# CSV格式示例(注释状态)
# train_data, test_data = TabularDataset.splits(
#     path='mydata',
#     train='train.csv',
#     test='test.csv',
#     format='csv',
#     fields=fields)

# TSV格式示例(注释状态)
# train_data, test_data = TabularDataset.splits(
#     path='mydata',
#     train='train.tsv',
#     test='test.tsv',
#     format='tsv',
#     fields=fields)

3. 构建词汇表与数据迭代器

# 构建词汇表并使用预训练词向量
quote.build_vocab(
    train_data, 
    max_size=10000,  # 词汇表最大大小
    min_freq=1,      # 最小词频
    vectors="glove.6B.100d"  # 使用GloVe预训练词向量
)

# 创建批处理迭代器
train_iterator, test_iterator = BucketIterator.splits(
    (train_data, test_data), 
    batch_size=2, 
    device=device  # 指定设备(CPU/GPU)
)

BucketIterator会自动将长度相似的样本分到同一批次，减少填充(padding)的数量，提高训练效率。

LSTM模型构建

下面我们构建一个简单的LSTM模型用于文本分类：

class RNN_LSTM(nn.Module):
    def __init__(self, input_size, embed_size, hidden_size, num_layers):
        super(RNN_LSTM, self).__init__()
        self.hidden_size = hidden_size
        self.num_layers = num_layers
        
        # 词嵌入层
        self.embedding = nn.Embedding(input_size, embed_size)
        # LSTM层
        self.rnn = nn.LSTM(embed_size, hidden_size, num_layers)
        # 输出层
        self.fc_out = nn.Linear(hidden_size, 1)
    
    def forward(self, x):
        # 初始化隐藏状态和细胞状态
        h0 = torch.zeros(self.num_layers, x.size(1), self.hidden_size).to(device)
        c0 = torch.zeros(self.num_layers, x.size(1), self.hidden_size).to(device)
        
        # 前向传播
        embedded = self.embedding(x)
        outputs, _ = self.rnn(embedded, (h0, c0))
        prediction = self.fc_out(outputs[-1, :, :])
        
        return prediction

模型关键组件说明：

Embedding层：将单词索引转换为密集向量表示
LSTM层：处理序列数据，捕捉长期依赖关系
全连接层：将LSTM输出转换为预测分数

模型训练

初始化模型与优化器

# 超参数设置
input_size = len(quote.vocab)  # 词汇表大小
hidden_size = 512
num_layers = 2
embedding_size = 100
learning_rate = 0.005
num_epochs = 10

# 初始化模型
model = RNN_LSTM(input_size, embedding_size, hidden_size, num_layers).to(device)

# 加载预训练词向量
pretrained_embeddings = quote.vocab.vectors
model.embedding.weight.data.copy_(pretrained_embeddings)

# 损失函数和优化器
criterion = nn.BCEWithLogitsLoss()  # 二分类任务
optimizer = optim.Adam(model.parameters(), lr=learning_rate)

训练循环

for epoch in range(num_epochs):
    for batch_idx, batch in enumerate(train_iterator):
        # 获取数据
        data = batch.q.to(device=device)
        targets = batch.s.to(device=device)
        
        # 前向传播
        scores = model(data)
        loss = criterion(scores.squeeze(1), targets.type_as(scores))
        
        # 反向传播
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

训练过程说明：