Transformer细节(六)——详解Transformer各层结构和组成及代码实现

Transformer 模型的架构是由多个编码器(Encoder)和解码器(Decoder)层堆叠而成的。

一、编码器(Encoder)

        编码器由多个相同的编码器层(Encoder Layer)堆叠而成。每个编码器层包含两个主要子层:自注意力(Self-Attention)子层和前馈神经网络(Feed Forward Neural Network,FFN)子层。

1. 自注意力子层(Self-Attention Layer)

        输入与输出维度

         输入张量的形状为 \((N, L, d_{\text{model}})\)

        计算过程

        注意力机制:通过查询(Query)、键(Key)和值(Value)来计算注意力得分,公式为:

\[ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V \]

        多头注意力(Multi-Head Attention)

        将输入分成多头,每个头独立计算注意力,再将结果拼接并通过线性变换。多头注意力公式为:\[ \text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \ldots, \text{head}_h)W^O \]
        其中,每个头的计算为:\[ \text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V) \]

        层归一化(Layer Normalization)

        在自注意力操作之后进行归一化,并添加残差连接(Residual Connection)。

2. 前馈神经网络子层(Feed Forward Neural Network, FFN)

        结构

        由两个线性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值