自然语言处理之Transformer原理及详细推导
在上一篇文章,我介绍了attention,以及attention机制与seq2seq模型的简单结合。seq2seq模型适用于问答、阅读理解、机器翻译、语言生成等自然语言处理的任务,结合attention之后,在2017年提出self-attention,形成现在所说的transformer模型。transformer模型相比于seq2seq+attention的好处主要体现于替代了RNN,使得模型可以并行计算,极大提高了效率,同时模型表现上有一定提升。
Transformer原理
上图为transformer的模型图。其左半部分为encoder,右半部分为decode。本博文沿用李宏毅老师的思路,先不考虑Positional Encoding来理解transformer。
不考虑Positional Encoding
为了理解transformer,我们不妨先不考虑Positional Encoding。对于输入的文本序列 x 1 ,