- 🍨 本文为🔗365天深度学习训练营 中的学习记录博客
- 🍖 原作者:K同学啊 | 接辅导、项目定制
1. Transformer的起源与发展
2017年Google在《Attention Is All You Need》中提出了Transformer结构用于序列标注,在翻译任务上超过了之前最优秀的循环神经网络模型。
Fast AI 在《Universal Language Model Fine-tuning for Text Classification》中提出了名库ULMFiT的迁移学习方法,将在大规模数据上预训练好的LSTM模型迁移到文本分类,只用很少标注就达到了最佳性能。
在Transformer结构发布后,出现了两个使用Transformer结构的著名模型:
- GPT(the Generative Pretrained Transformer)
- BERT (Bidirectional Encoder Representations from Tranformers)
通过Transformer结构与无监督学习的相合,不用在人头开始训练模型,几乎所有的NLP任务都远超先前的最强基准。
使用Transformer结构的模型三到处分为三类:
- 纯Encoder模型:例如BERT,又称自编码(auto-encoding)Transformer模型
- 纯Decoder模型:例如GPT,又称自回归(auto-regressive)Transformer模型
- Encoder-Decoder模型:例如BART、T5,又称Seq2Seq(sequence-to-sequece)Transformer模型
2. 什么是Transformer
什么是自监督学习
自监督学习(Self-supervised Learning)是一种机器学习方法,其特点在于从数据本身自动生成标签或监督信号,无需人工标注。简单来说就是让机器利用数据本身的结构或特征来进行学习,从而不依赖于外部标签或监督信号。
自监督学习的优点
- 数据利用率高:由于不需要人工标注标签,可以充分利用未标记数据,从而大大扩展了可用于训练的数据集
- 泛化能力强:自监督学习训练出的模型通常具