参考Transformer详解 和 Transforner模型详解
1 Transformer 整体结构
Transformer 由 Encoder 和 Decoder 两个部分组成,Encoder 和 Decoder 都包含 6 个 block。
2 Transformer 局部结构
2.1 输入层
Transformer 中的输入层是由单词的 Word Embedding 和 Positional Embedding 相加得到。
以"I Really Love You" 翻译成中文 "我真地爱你" 为例:参考Transformer代码讲解
- Word Embedding 表示将输入的单词 "I", "Really", "Love", "You" ,每一个都用 One-Hot 独热编码、Word2Vec 或 GloVe 等形式的词向量表示,一个句子就可以用一个矩阵来表示。
- Positional Embedding 表示保存输入的单词"I", "Really", "Love", "You" 出现在序列中的相对或绝对位置(一句话中词语出现位置不同,意思可能发生翻天覆地的变化)。
- 编码层 Encoder 的输入则需要将每个单词的 Word Embedding 与位置编码 Positional Encoding 相加得到
- Output Embedding 与输入 Input Embedding 的处理方法步骤一样,输入 Input Embedding 接收的是 source 数据,输出 Output Embedding 接收的是 target 数据(例如:输入 Input Embedding 接收 "I Love You" 分词后的词向量 Word Embedding;输出 Output Embedding 接收 “我爱你” 分词后的词向量 Word Embedding)
- 注意:只是在有 target 数据时也就是在进行有监督训练时才会接收 Outputs Embedding,进行预测时则不会接收。
Q1:Positional Encoding 如何获取?
通过数据训练学习得到 Positional Encoding ,类似于训练学习词向量。
Q2:有监督训练和无监督训练是什么,二者有什么区别?参考有监督学习与无监督学习的区别
- 有监督学习 Supervised Learning 方法必
Transformer详解:结构、自注意力机制与教学引导训练,

最低0.47元/天 解锁文章
969

被折叠的 条评论
为什么被折叠?



