文章目录
前言
前文大语言模型系列-ELMo提到了,RNN的缺陷限制了NLP领域的发展,2017年Transofrmer的横空出世,NLP领域迎来了基于Transformer的预训练模型(LLM)的大爆发。
Transformer由谷歌的2017年论文《Attention is All You Need》提出。
Transformer通过引入注意力机制解决了RNN存在的以下问题:
- RNN编码器-解码器结构中,仅将最后一个隐藏状态传递给解码器,会丢失信息
- RNN难以并行计算
提示:以下是本篇文章正文内容,下面内容可供参考
一、Attention
- 循环神经网络(RNN)模型建立了网络隐藏层之间的时序关联 , 每一时刻的隐藏层 s t s_t st,不仅取决于输入 x t x_t xt,还取决于上一时刻隐藏层信息 s t − 1 s_{t-1} st−1
- 两个RNN组合可以形成Encoder-Decoder模型
- 但是这种不管输入多长,都统一压缩成长度编码C的做法,会导致信息的丢失,因此出现了Attention机制:即通过每个时间输入不同的C解决这个问题,其中 a t a_t at表明了在 t t t时刻所有输入的权重,以 c t c_t ct的视角看过去, a t a_t at