十二、Transformer

Transformer详解：结构、自注意力机制与教学引导训练,

原创

已于 2024-03-24 16:37:34 修改 · 2k 阅读

·

38

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#transformer #深度学习 #人工智能

于 2024-03-14 11:02:42 首次发布

参考Transformer详解和 Transforner模型详解

1 Transformer 整体结构

Transformer 由 Encoder 和 Decoder 两个部分组成，Encoder 和 Decoder 都包含 6 个 block。

2 Transformer 局部结构

2.1 输入层

Transformer 中的输入层是由单词的 Word Embedding 和 Positional Embedding 相加得到。

以"I Really Love You" 翻译成中文 "我真地爱你" 为例：参考Transformer代码讲解

Word Embedding 表示将输入的单词 "I", "Really", "Love", "You" ，每一个都用 One-Hot 独热编码、Word2Vec 或 GloVe 等形式的词向量表示，一个句子就可以用一个矩阵来表示。

Positional Embedding 表示保存输入的单词"I", "Really", "Love", "You" 出现在序列中的相对或绝对位置（一句话中词语出现位置不同，意思可能发生翻天覆地的变化）。

编码层 Encoder 的输入则需要将每个单词的 Word Embedding 与位置编码 Positional Encoding 相加得到

Output Embedding 与输入 Input Embedding 的处理方法步骤一样，输入 Input Embedding 接收的是 source 数据，输出 Output Embedding 接收的是 target 数据（例如：输入 Input Embedding 接收 "I Love You" 分词后的词向量 Word Embedding；输出 Output Embedding 接收 “我爱你” 分词后的词向量 Word Embedding）

注意：只是在有 target 数据时也就是在进行有监督训练时才会接收 Outputs Embedding，进行预测时则不会接收。

Q1：Positional Encoding 如何获取？

通过数据训练学习得到 Positional Encoding ，类似于训练学习词向量。

Q2：有监督训练和无监督训练是什么，二者有什么区别？参考有监督学习与无监督学习的区别

有监督学习 Supervised Learning 方法必

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

瑞雪兆我心 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。