使用Optimum项目实现基于ONNX Runtime的文本摘要模型训练

石乾银

于 2025-06-19 09:16:58 发布

阅读量326

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00891/article/details/148756432

使用Optimum项目实现基于ONNX Runtime的文本摘要模型训练

optimum 🚀 Accelerate training and inference of 🤗 Transformers and 🤗 Diffusers with easy to use hardware optimization tools 项目地址: https://gitcode.com/gh_mirrors/op/optimum

概述

本文将介绍如何利用Optimum项目中的ONNX Runtime训练功能，高效地微调文本摘要模型。文本摘要是自然语言处理中的一项重要任务，旨在将长文本压缩为保留核心信息的简短摘要。Optimum项目提供了与ONNX Runtime深度集成的训练方案，能够显著提升模型训练效率。

ONNX Runtime训练优势

ONNX Runtime是由微软开发的高性能推理和训练引擎，与Optimum项目集成后，能够为Hugging Face生态中的模型提供以下优势：

训练速度提升：通过优化计算图和内存管理，加速模型训练过程
硬件利用率提高：更好地利用GPU资源，提高计算效率
内存占用优化：减少训练过程中的显存消耗
无缝集成：与Hugging Face Transformers生态完美兼容

环境准备

在开始训练前，需要确保环境满足以下要求：

GPU设备：ONNX Runtime训练需要NVIDIA GPU支持
软件依赖：
- PyTorch与CUDA
- ONNX Runtime训练版
- Optimum及其依赖项

建议使用官方提供的Docker镜像来快速搭建训练环境，避免复杂的依赖问题。

支持的模型架构

目前Optimum项目已验证支持以下序列到序列(Seq2Seq)模型架构的ONNX Runtime训练：

BART：基于Transformer的编码器-解码器架构，特别适合文本生成任务
T5：将所有NLP任务统一为文本到文本格式的通用模型

理论上，任何在Transformers库中支持ONNXConfig的Seq2Seq模型都可以使用，但上述模型已经过充分测试和验证。

训练流程详解

1. 数据准备

训练脚本支持两种数据来源：

直接从Hugging Face数据集库加载（如CNN/DailyMail数据集）
使用本地自定义数据（JSON Lines或CSV格式）

对于文本摘要任务，常见的数据集包括CNN/DailyMail、XSum等，这些数据集已经包含原始文章和对应的摘要。

2. 训练命令解析

以下是一个典型的训练命令示例：

torchrun --nproc_per_node=4 run_summarization.py \
    --model_name_or_path t5-small \
    --dataset_name cnn_dailymail \
    --dataset_config "3.0.0" \
    --source_prefix "summarize: " \
    --do_train \
    --do_eval \
    --per_device_train_batch_size=4 \
    --per_device_eval_batch_size=4 \
    --output_dir ./summary_model_output/ \
    --overwrite_output_dir \
    --predict_with_generate

关键参数说明：