TR1 - Transformer起源与发展

1. Transformer的起源与发展

2017年Google在《Attention Is All You Need》中提出了Transformer结构用于序列标注,在翻译任务上超过了之前最优秀的循环神经网络模型。

Fast AI 在《Universal Language Model Fine-tuning for Text Classification》中提出了名库ULMFiT的迁移学习方法,将在大规模数据上预训练好的LSTM模型迁移到文本分类,只用很少标注就达到了最佳性能。

在Transformer结构发布后,出现了两个使用Transformer结构的著名模型:

  • GPT(the Generative Pretrained Transformer)
  • BERT (Bidirectional Encoder Representations from Tranformers)

通过Transformer结构与无监督学习的相合,不用在人头开始训练模型,几乎所有的NLP任务都远超先前的最强基准。

使用Transformer结构的模型三到处分为三类:

  • 纯Encoder模型:例如BERT,又称自编码(auto-encoding)Transformer模型
  • 纯Decoder模型:例如GPT,又称自回归(auto-regressive)Transformer模型
  • Encoder-Decoder模型:例如BART、T5,又称Seq2Seq(sequence-to-sequece)Transformer模型

2. 什么是Transformer

什么是自监督学习

自监督学习(Self-supervised Learning)是一种机器学习方法,其特点在于从数据本身自动生成标签或监督信号,无需人工标注。简单来说就是让机器利用数据本身的结构或特征来进行学习,从而不依赖于外部标签或监督信号。

自监督学习的优点

  • 数据利用率高:由于不需要人工标注标签,可以充分利用未标记数据,从而大大扩展了可用于训练的数据集
  • 泛化能力强:自监督学习训练出的模型通常具
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值