自然语言处理之Transformer原理及详细推导

自然语言处理之Transformer原理及详细推导

  在上一篇文章,我介绍了attention,以及attention机制与seq2seq模型的简单结合。seq2seq模型适用于问答、阅读理解、机器翻译、语言生成等自然语言处理的任务,结合attention之后,在2017年提出self-attention,形成现在所说的transformer模型。transformer模型相比于seq2seq+attention的好处主要体现于替代了RNN,使得模型可以并行计算,极大提高了效率,同时模型表现上有一定提升。

Transformer原理

transformer模型图
  上图为transformer的模型图。其左半部分为encoder,右半部分为decode。本博文沿用李宏毅老师的思路,先不考虑Positional Encoding来理解transformer。

不考虑Positional Encoding

  为了理解transformer,我们不妨先不考虑Positional Encoding。对于输入的文本序列 x 1 ,

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值