“万物皆可Seq2Seq” | 使用 bert4keras 在中文语境下运行Google Multilingual T5(mT5)

最新推荐文章于 2025-04-23 18:22:03 发布

訢詡

最新推荐文章于 2025-04-23 18:22:03 发布

阅读量1.2k

点赞数

分类专栏：深度学习NLP方向文章标签： t5 nlp bert bert4keras

本文链接：https://blog.youkuaiyun.com/Andrwin/article/details/112239939

版权

本文介绍了如何使用苏总的bert4keras库在中文环境下运行Google的多语言T5（mT5）模型。内容包括T5模型的简介、实验环境配置（Ubuntu、GPU、Anaconda等）、数据集（GLGE的CSL摘要生成子集）处理、预训练权重获取，以及训练过程的详细说明。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、介绍

自去年Google发布了T5之后一直没有中文版本，所以没什么人去用。今年出了中文版我还是不会用，这里用的是苏总的bert4keras去跑mT5，一些对于T5的理解会慢慢加上，前面先以跑通为主。

我翻译了T5这篇论文《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》，链接在这里： https://blog.youkuaiyun.com/Andrwin/article/details/112279590

看完了相信你会对模型有了更深的理解。

二、环境

物理机：

Ubuntu18.04、RTX2080（8G）、NVIDIA-DRIVER=440.95.01、Anaconda3 5.2.1、Python=3.6、CUDA=10.1、CUDNN=7.6.5

先用conda创建一个虚拟环境：

conda create -n t5
source activate t5

然后用TensorFlow去装虚拟版本cudatoolkit

conda install tensorflow-gpu=1.14
pip install keras==2.3.1
pip install bert4keras==0.9.1
pip install numpy==1.19.2
pip install sentencepiece==0.1.94
pip install tqdm

其他东西缺什么装什么就行。