Transformer架构数据流梳理

最新推荐文章于 2025-11-23 17:56:55 发布

原创最新推荐文章于 2025-11-23 17:56:55 发布 · 976 阅读

·

22

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#transformer #深度学习 #人工智能

Transformer

1 transformer整体架构
2. 输入
- 2.1 词嵌入
- 2.2 位置编码（positional encoding）
3 编码器层（encoder）
- 3.1 自注意力机制和多头注意力机制
- 3.2 前馈神经网络（FFN）
4. 解码器（decoder）

1 transformer整体架构

在这里插入图片描述

2. 输入

在这里插入图片描述

前期数据处理完后得到，语料库，得到了每条数据的批次(batch_size),长度（seq_len）,
所以inputs的形状为（batch_size,seq_len）

batch_size:每批次传入多少句话
seq_len:一句话最大词数,大于seq的句子被截断，小于seq_len的进行填充（一般是0）

2.1 词嵌入

经过Embedding(vab_size,d_model)---->输出形状为（batch_size,seq_len,d_model）

vab_size:语料库的大小
d_model:词向量的维度

2.2 位置编码（positional encoding）

固定的公式,不会随梯度更新而改变
在这里插入图片描述
位置编码的形状（batch_size,seq_len,d_model），形状跟词嵌入之后的形状一样可以进行相加操作

最终得到形状（batch_size,seq_len,d_model）

3 编码器层（encoder）

在这里插入图片描述

3.1 自注意力机制和多头注意力机制

输入的形状（batch_size,seq_len,d_model）

计算Q,K,V，形状不变（batch_size,seq_len,d_model）
拆分多头
（batch_size,seq_len,d_model）---->（batch_size,seq_len,num_head,head_dim）

num_head:头的数量
head_dim:每个头的维度=d_model//num_head

维度变换：（batch_size,seq_len,num_head,head_dim）---->（batch_size,num_head,seq_len,head_dim）
计算注意力形状不变：
拼接头：（batch_size,num_head,seq_len,head_dim）—>（batch_size,seq_len,num_head,head_dim）---->（batch_size,seq_len,d_model)
线性映射，残差连接和层归一化
输出（batch_size,seq_len,d_model)

3.2 前馈神经网络（FFN）

输入（batch_size,seq_len,d_model)----->输出（batch_size,seq_len,d_model)

4. 解码器（decoder）

在这里插入图片描述

4.1 自注意力机制和掩码多头注意力机制

输入的形状（batch_size,seq_len,d_model）

计算Q,K,V，形状不变（batch_size,seq_len,d_model）
拆分多头
（batch_size,seq_len,d_model）---->（batch_size,seq_len,num_head,head_dim）

num_head:头的数量
head_dim:每个头的维度=d_model//num_head

维度变换：（batch_size,seq_len,num_head,head_dim）---->（batch_size,num_head,seq_len,head_dim）
计算掩码
计算注意力形状不变：
拼接头：（batch_size,num_head,seq_len,head_dim）—>（batch_size,seq_len,num_head,head_dim）---->（batch_size,seq_len,d_model)
线性映射，残差连接和层归一化
输出（batch_size,seq_len,d_model)

4.2 交叉注意力机制

输入的形状enc_outs:（batch_size,s_seq_len,d_model）,dec_inputs:（batch_size,d_seq_len,d_model）

计算Q,K,V，Q:（batch_size,d_seq_len,d_model）K,V::（batch_size,s_seq_len,d_model
拆分多头
（batch_size,seq_len,d_model）---->（batch_size,seq_len,num_head,head_dim）

num_head:头的数量
head_dim:每个头的维度=d_model//num_head

维度变换：（batch_size,seq_len,num_head,head_dim）---->（batch_size,num_head,seq_len,head_dim）
计算掩码
计算注意力形状：（batch_size,num_head,d_seq_len,head_dim）
拼接头：（batch_size,num_head,d_seq_len,head_dim）—>（batch_size,d_seq_len,num_head,head_dim）---->（batch_size,d_seq_len,d_model)
线性映射，残差连接和层归一化
输出（batch_size,d_seq_len,d_model)

5 Transformer

输入:enc_inputs:（batch_size,s_seq_len,d_model),dec_inputs:（batch_size,d_seq_len,d_model),
输出：dec_outs:（batch_size,d_seq_len,d_model)

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。