transformer 总结(超详细-初版)

最新推荐文章于 2025-06-27 17:30:04 发布

原创

最新推荐文章于 2025-06-27 17:30:04 发布 · 926 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#transformer #深度学习 #人工智能

本文详细解析了Transformer的输入编码（包括词嵌入和位置编码）、自注意力和多头注意力机制，以及Add&Norm层的作用。着重介绍了位置编码如何处理相对位置信息和为何需要mask。文章还提及了TeacherForcing在训练中的应用。

相关知识链接

引言

本文主要详解 transformer 的算法结构以及理论解释，代码实现以及具体实现时候的细节放在下一篇来详述。
下面就通过上图中 transformer 的结构来依次解析

输入部分(Encode 侧)

input 输出主要包含两个部分：embedding 的输入数据，数据位置的 embedding
- 关于输入数据的 embedding 有很多种方式，比如word2vec，GloVe，FastText 等(注意embedding 和热编码,向量化不一回事)
- 关于位置的 embedding，因为 transformer使用的全局信息而不是单纯的利用单词的之间的顺序信息，所以位置信息十分重要，transformer 使用位置 embedding 来保存单词在序列中的相对或者绝对位置
  - 位置 embedding 用 PE 表示，PE 可以通过训练得到(比如 bert 的位置信息)，也可以使用自定义公式得到，transformer 使用的是公式
    $PE_(pos, 2i) = Sin(pos/100000^(2i/d))$
    $PE_(pos, 2i+1) = Cos(pos/100000^(2i/d))$

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

矮人三等 秀儿，是你吗秀儿？

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。