Transformer模型-7- Decoder

原创

已于 2024-10-06 16:57:28 修改 · 1.5k 阅读

·

18

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#transformer #深度学习 #人工智能 #语言模型 #算法 #目标检测 #神经网络

于 2024-09-21 11:55:03 首次发布

概述

Decoder也是N=6层堆叠的结构，每层被分3层: 两个注意力层和前馈网络层，同Encoder一样在主层后都加有Add&Norm，负责残差连接和归一化操作。

Encoder与Decoder有三大主要的不同：

第一层 Masked Multi-Head Attention: 采用Masked操作
第二层 Multi-Head Attention: K, V矩阵是使用Encoder编码信息矩阵C进行计算，而Q使用上一个Decoder的输出计算。
概率计算输出: Linear和Softmax作用于前向网络层的输出后面，来预测对应的word的probabilities

Encoder的输入矩阵用X表示，输出矩阵用C表示

流程图表示如下：

Positional Encoding特征值Output Embedding带掩码的多头注意力层多头注意力层前馈网络层Add&NormLinearSoftmaxOutputProbilities

分析如下：

我们将输入转换为嵌入矩阵，再加上位置编码，输入解码器
解码器收到输入，将其发送给带掩码的多头注意力层，生成注意力矩阵M
将注意力矩阵M和Encoder输出的特征值R作为多头注意力层的输入，输出第二层注意力矩阵
从第二层的多头注意力层得到注意力矩阵，送入前馈网络层，后者将解码后的特征作为输出
前馈网络层的输出经过Add&Norm后，做linear及Softmax回归，并输出目标句子的特征

Decoder 的输入

Decoder的输入结构与encoder的一样。

见Transformer模型-4-Inputs-笔记

Masked Multi-Head Attention

输入组成

由如下几个部分组成

1.初始输入：前一时刻Decoder输入+前一时刻Decoder的预测结果 + Positional Encoding
3.中间输入：Encoder Embedding
4.Shifted Right：在输出前添加起始符(Begin)，方便预测第一个Token

Shifted Right是在起始位添加起始符(Begin)，让整个输入向后移一位，是为了在T-1时刻需要预测T时刻的输出。

举例: I like eat hamburg

正常的输出序列位置关系如下：

1  0："I"
2

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。