Text-to-Text Transfer Transformer (T5)预训练模型解析与选型指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00104/article/details/148467802

Text-to-Text Transfer Transformer (T5)预训练模型解析与选型指南

text-to-text-transfer-transformer Code for the paper "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer" 项目地址: https://gitcode.com/gh_mirrors/te/text-to-text-transfer-transformer

前言

Text-to-Text Transfer Transformer（简称T5）是Google Research提出的一个统一文本处理框架，它将所有NLP任务都转换为文本到文本的格式。本文将深入解析T5项目提供的各类预训练模型检查点，帮助开发者根据实际需求选择合适的模型。

T5模型演进概述

T5模型经历了多个版本的迭代优化，从最初的T5.0到改进版的T5.1.1，再到各种实验性变体。每个版本都在模型架构、训练策略等方面有所改进。

T5.1.1系列模型详解

T5.1.1是对原始T5模型的重大改进版本，主要优化点包括：

激活函数改进：使用GEGLU（Gated Linear Unit with Gaussian Error）替代ReLU作为前馈网络的激活函数。GEGLU通过门控机制能更好地捕捉非线性特征。
训练策略优化：
- 预训练阶段关闭Dropout（实验证明能提升模型质量）
- 仅在C4数据集上进行预训练，不混合下游任务数据
- 微调时需要重新启用Dropout
架构调整：
- 嵌入层和分类器层的参数不再共享
- 模型尺寸重新设计：
  - "xl"替代原"3B"，"xxl"替代原"11B"
  - 增大了d_model维度
  - 减少了注意力头数(num_heads)和前馈网络维度(d_ff)

可用模型规格

| 模型名称 | 参数量 | 适用场景 | |---------|-------|---------| | t5.1.1.small | ~77M | 轻量级应用，资源受限环境 | | t5.1.1.base | ~250M | 通用场景，平衡性能与资源 | | t5.1.1.large | ~800M | 高性能需求场景 | | t5.1.1.xl | ~3B | 大规模任务，需强大计算资源 | | t5.1.1.xxl | ~11B | 研究级应用，极致性能需求 |