Hugging Face课程：使用mT5模型实现多语言文本摘要-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00173/article/details/148756169

Hugging Face课程：使用mT5模型实现多语言文本摘要

course The Hugging Face course on Transformers 项目地址: https://gitcode.com/gh_mirrors/cou/course

文本摘要任务概述

文本摘要是自然语言处理(NLP)中的一项重要任务，旨在将长篇文档压缩为简洁的摘要，同时保留原文的核心信息。这项任务具有广泛的应用场景，如新闻摘要、报告生成、客户反馈分析等。

多语言文本摘要的挑战

传统文本摘要模型通常只针对单一语言(主要是英语)进行优化。然而，在实际应用中，我们经常需要处理多种语言的文本。多语言文本摘要面临以下挑战：

语言多样性：不同语言的语法结构和表达方式差异大
数据稀缺：许多语言缺乏足够的标注数据
模型容量：单一模型需要学习多种语言的特征

解决方案：使用mT5模型

mT5(multilingual T5)是Google推出的多语言文本到文本转换模型，基于T5架构并在101种语言上进行预训练。它特别适合我们的多语言摘要任务，因为：

统一框架：所有任务都转换为文本到文本格式
多语言能力：在多种语言上联合训练
迁移学习：预训练知识可迁移到下游任务

数据准备

我们使用亚马逊多语言评论数据集，包含英语和西班牙语的书籍评论数据。数据处理流程包括：

数据筛选：选择书籍相关评论
语言混合：合并英语和西班牙语数据
质量过滤：去除过短的标题

def filter_books(example):
    return (example["product_category"] == "book" or 
            example["product_category"] == "digital_ebook_purchase")

english_books = english_dataset.filter(filter_books)
spanish_books = spanish_dataset.filter(filter_books)

模型训练

预处理

使用SentencePiece分词器处理多语言文本，注意处理长文本的截断问题：

max_input_length = 512
max_target_length = 30

def preprocess_function(examples):
    model_inputs = tokenizer(
        examples["review_body"],
        max_length=max_input_length,
        truncation=True
    )
    labels = tokenizer(
        examples["review_title"], 
        max_length=max_target_length, 
        truncation=True
    )
    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

评估指标

使用ROUGE指标评估摘要质量，它通过计算生成摘要与参考摘要之间的重叠程度来衡量质量：

import evaluate
rouge_score = evaluate.load("rouge")

ROUGE计算三个主要指标：

ROUGE-1：基于unigram的重叠
ROUGE-2：基于bigram的重叠
ROUGE-L：基于最长公共子序列

训练技巧

学习率调度：使用线性学习率衰减
梯度累积：在显存有限时累积多个batch的梯度
混合精度训练：使用FP16加速训练
早停机制：根据验证集性能决定何时停止

模型微调

使用Seq2SeqTrainer进行模型微调：

from transformers import Seq2SeqTrainingArguments

training_args = Seq2SeqTrainingArguments(
    output_dir="mt5-small-finetuned-amazon-en-es",
    evaluation_strategy="epoch",
    learning_rate=5.6e-5,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    weight_decay=0.01,
    save_total_limit=3,
    num_train_epochs=3,
    predict_with_generate=True,
    fp16=True,
)

trainer = Seq2SeqTrainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    tokenizer=tokenizer,
    compute_metrics=compute_metrics,
)

实际应用

训练完成的模型可以用于生成英语和西班牙语评论的摘要：

def generate_summary(text):
    inputs = tokenizer(text, return_tensors="pt", truncation=True)
    outputs = model.generate(
        inputs["input_ids"], 
        max_length=30
    )
    return tokenizer.decode(outputs[0], skip_special_tokens=True)