Transformer论文复现:3.解码器部分(解码器层)和4.输出部分(线性层、softmax层)
3.1 解码器介绍
解码器部分:
- 由N个解码器层堆叠而成
- 每个解码器层由三个子层连接结构组成
- 第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
- 第二个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接
- 第三个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接

说明:
解码器层中的各个部分,如,多头注意力机制,规范化层,前馈全连接网络,子层连接结构都与编码器中的实现相同. 因此这里可以直接拿来构建解码器层.
3.2 解码器层
3.2.1 解码器层的作用
作为解码器的组成单元, 每个解码器层根据给定的输入向目标方向进行特征提取操作,即解码过程.
3.2.2 解码器层的代码实现
# 解码器层类 DecoderLayer 实现思路分析
# init函数 (sel
这篇博客深入探讨Transformer的解码器结构,包括解码器层的作用、实现和总结。解码器由多个子层组成,包括自注意力和一般注意力机制,并使用掩码防止信息泄露。此外,介绍了输出部分,线性层用于转换维度,softmax层则将输出转化为概率分布。
订阅专栏 解锁全文
1764

被折叠的 条评论
为什么被折叠?



