T5模型是Google发布的Text-to-Text预训练模型:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer。T5是Transfer Text-to-Text Transformer的简写,Text-to-Text Transfer Transformer ,Transfer是迁移学习。
T5的作⽤给整个NLP预训练模型领域提供了⼀个通⽤框架,把所有任务都转化成⼀种形式,即⽂本 输⼊⽂本输出。⽆论什么任务,直接拿来⼀个超⼤预训练模型,然后主要⼯作就变成了怎么把任务 转换成合适的⽂本输⼊输出。该模型将所有自然语言问题都转化成文本到文本的形式,并用一个统一的模型解决。为了得到大一统的高质量预训练语言模型,T5不可避免地走上了“大力出奇迹”的道路,使用了更大的模型和更多的数据,但是模型和数据规模只是T5通往最强模型的手段之一,T5最核心的理念是:使用前缀任务声明及文本答案生成,统一所有自然语言处理任务的输入和输出。
T5主要应用于四类任务:机器翻译(machine translation)、问答(question answering)、抽象摘要(abstractive summarization)和文本分类(text classification)。此外,T5的训练过程中使用了**C4(Colossal Clean Crawled Corpus)**这一语料库。

T5将自然语言处理任务都转化成几乎一致的格式,即输入是带有任务前缀声明的文本序列,输出的文本序列是相应任务的结果。其输入格式和输出格式类似于GPT-3在Few-shot Learning设置下的格式。
⽐如英德翻译,只需将训练数据集的输⼊部分前加上“translate English to German” 就⾏。再⽐如 情感分类任务,输⼊"sentime

最低0.47元/天 解锁文章
2008

被折叠的 条评论
为什么被折叠?



