HuggingFace课程笔记：数据处理与预处理技术详解-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00573/article/details/148755917

HuggingFace课程笔记：数据处理与预处理技术详解

course The Hugging Face course on Transformers 项目地址: https://gitcode.com/gh_mirrors/cou/course

引言

在自然语言处理(NLP)任务中，数据处理和预处理是构建高效模型的关键步骤。本文将深入探讨如何使用HuggingFace生态系统中的工具对文本数据进行有效处理，为后续的模型训练做好准备。

基础数据处理流程

让我们从一个简单的序列分类器训练示例开始：

import torch
from torch.optim import AdamW
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# 初始化模型和分词器
checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)

# 准备输入数据
sequences = [
    "I've been waiting for a HuggingFace course my whole life.",
    "This course is amazing!",
]
batch = tokenizer(sequences, padding=True, truncation=True, return_tensors="pt")

# 添加标签并训练
batch["labels"] = torch.tensor([1, 1])
optimizer = AdamW(model.parameters())
loss = model(**batch).loss
loss.backward()
optimizer.step()

这个例子展示了最基本的处理流程，但在实际应用中，我们需要处理更大规模的数据集。

使用MRPC数据集

MRPC（Microsoft Research Paraphrase Corpus）是一个包含5,801对句子的数据集，标注了句子对是否为同义句。这个数据集规模适中，非常适合学习和实验。

加载数据集

HuggingFace提供了便捷的数据集加载方式：

from datasets import load_dataset

raw_datasets = load_dataset("glue", "mrpc")
print(raw_datasets)

输出展示了数据集的结构：

训练集：3,668个样本
验证集：408个样本
测试集：1,725个样本

每个样本包含：

sentence1：第一个句子
sentence2：第二个句子
label：标签（0表示非同义，1表示同义）
idx：索引ID

数据集结构分析

我们可以查看数据集的详细结构：

raw_train_dataset = raw_datasets["train"]
print(raw_train_dataset[0])  # 查看第一个样本
print(raw_train_dataset.features)  # 查看特征结构

标签被自动转换为ClassLabel类型，其中：

0对应"not_equivalent"
1对应"equivalent"

数据预处理技术

基本分词处理

对于句子对任务，我们需要特殊处理两个句子的关系：

from transformers import AutoTokenizer

checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

# 处理句子对
inputs = tokenizer("This is the first sentence.", "This is the second one.")
print(inputs)

输出包含三个关键部分：

input_ids：分词后的ID序列
token_type_ids：区分两个句子的标记
attention_mask：注意力掩码

分词细节解析

解码input_ids可以看到实际的分词结果：

print(tokenizer.convert_ids_to_tokens(inputs["input_ids"]))

格式为：[CLS] sentence1 [SEP] sentence2 [SEP]

对应的token_type_ids：

0表示属于第一个句子
1表示属于第二个句子

这种格式源自BERT的预训练任务之一——下一句预测(NSP)。

批量处理数据集

为了高效处理整个数据集，我们可以使用map方法：

def tokenize_function(example):
    return tokenizer(example["sentence1"], example["sentence2"], truncation=True)

tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)

这种方法优势在于：

保持数据集格式不变
支持批量处理提高效率
可以灵活添加其他预处理步骤

动态填充技术

为什么需要动态填充

不同样本长度差异大时，我们有三种处理选择：

填充到数据集最大长度——浪费计算资源
填充到模型最大长度——可能仍然浪费
动态填充到批次内最大长度——最优方案

实现动态填充

使用DataCollatorWithPadding可以自动实现动态填充：

from transformers import DataCollatorWithPadding

data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

# 测试动态填充
samples = tokenized_datasets["train"][:8]
samples = {k: v for k, v in samples.items() if k not in ["idx", "sentence1", "sentence2"]}
batch = data_collator(samples)
print({k: v.shape for k, v in batch.items()})

输出显示所有样本被填充到了批次内最大长度，而不是全局最大长度。