使用Hugging Face Transformers和Keras进行模型微调实战指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00618/article/details/148549174

使用Hugging Face Transformers和Keras进行模型微调实战指南

notebooks Notebooks using the Hugging Face libraries 🤗 项目地址: https://gitcode.com/gh_mirrors/note/notebooks

前言

在现代自然语言处理(NLP)领域，预训练模型的微调已成为解决各类文本任务的标准方法。本文将详细介绍如何利用Hugging Face生态系统中的Transformers库，结合Keras框架，对BERT模型进行微调，以完成句子对分类任务。

环境准备

在开始之前，我们需要安装必要的Python库：

pip install datasets evaluate transformers[sentencepiece]

这些库分别提供以下功能：

datasets: 用于加载和处理数据集
evaluate: 用于模型评估
transformers: 提供预训练模型和训练工具
sentencepiece: 分词器支持

数据集加载与预处理

我们使用GLUE基准测试中的MRPC(Microsoft Research Paraphrase Corpus)数据集，该任务需要判断两个句子是否语义等价。

from datasets import load_dataset
raw_datasets = load_dataset("glue", "mrpc")

MRPC数据集包含训练集、验证集和测试集，每个样本包含两个句子和一个标签(0表示不相似，1表示相似)。

分词处理

使用BERT的分词器对文本进行处理：

from transformers import AutoTokenizer
checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

def tokenize_function(example):
    return tokenizer(example["sentence1"], example["sentence2"], truncation=True)

tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)

这里的分词器会自动添加BERT所需的特殊token([CLS], [SEP]等)，并处理句子对格式。

数据准备

为了适配Keras训练流程，我们需要将数据集转换为TensorFlow格式：

from transformers import DataCollatorWithPadding
data_collator = DataCollatorWithPadding(tokenizer=tokenizer, return_tensors="tf")

tf_train_dataset = tokenized_datasets["train"].to_tf_dataset(
    columns=["attention_mask", "input_ids", "token_type_ids"],
    label_cols=["labels"],
    shuffle=True,
    collate_fn=data_collator,
    batch_size=8,
)

DataCollatorWithPadding确保每个batch中的样本长度一致，通过padding处理。

模型加载

加载预训练的BERT模型，并添加适合MRPC任务的分类头：

from transformers import TFAutoModelForSequenceClassification
model = TFAutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)

num_labels=2表示这是一个二分类任务。

模型训练

基础训练配置

from tensorflow.keras.losses import SparseCategoricalCrossentropy

model.compile(
    optimizer="adam",
    loss=SparseCategoricalCrossentropy(from_logits=True),
    metrics=["accuracy"],
)
model.fit(
    tf_train_dataset,
    validation_data=tf_validation_dataset,
)

高级训练配置

为了获得更好的训练效果，我们可以实现学习率调度：

from tensorflow.keras.optimizers.schedules import PolynomialDecay
from tensorflow.keras.optimizers import Adam

batch_size = 8
num_epochs = 3
num_train_steps = len(tf_train_dataset) * num_epochs
lr_scheduler = PolynomialDecay(
    initial_learning_rate=5e-5, end_learning_rate=0.0, decay_steps=num_train_steps
)
opt = Adam(learning_rate=lr_scheduler)

model.compile(optimizer=opt, loss=loss, metrics=["accuracy"])
model.fit(tf_train_dataset, validation_data=tf_validation_dataset, epochs=3)

这种配置下，学习率会从5e-5开始，随着训练过程逐渐衰减到0。

模型评估

训练完成后，我们可以在验证集上进行预测和评估：

preds = model.predict(tf_validation_dataset)["logits"]
class_preds = np.argmax(preds, axis=1)

使用GLUE官方评估指标：

import evaluate
metric = evaluate.load("glue", "mrpc")
results = metric.compute(predictions=class_preds, references=raw_datasets["validation"]["label"])

典型的评估结果可能包含准确率(accuracy)和F1分数，例如：