49、自注意力机制与Transformer编码器详解

雪落无声360

于 2025-08-30 12:02:13 发布

阅读量29

点赞数

CC 4.0 BY-SA版权

分类专栏：自然语言处理实战指南文章标签：自注意力机制 Transformer编码器多头注意力

本文链接：https://blog.youkuaiyun.com/agile9scrum/article/details/151201138

自然语言处理实战指南专栏收录该内容

55 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

自注意力机制与Transformer编码器详解

1. 前馈子层

编码器层的最后一部分是一个前馈网络，它包含两个线性模块，中间使用ReLU函数（即 $max(x, 0)$ ）。其公式如下：
$FFN(X’) = max(X’W_1 + b_1, 0)W_2 + b_2$
与注意力机制类似，我们会应用层归一化：
$LayerNormalization(X’ + FFN(X’))$
其中，$W_1$ 的大小是 $d_{model} \times d_{ff}$，$W_2$ 的大小是 $d_{ff} \times d_{model}$。

2. 编码器层

编码器由N个相同的层堆叠而成，每层由多头注意力和前馈网络组成。以下是编码器层的实现代码：

import torch
import torch.nn as nn

class TransformerEncoderLayer(nn.Module):
    def __init__(self, d_model, nhead, d_ff=2048):
        super().__init__()
        self.multihead_attn = nn.MultiheadAttention(d_model, nhead)
        self.layer_norm_1 = nn.LayerNorm(d_model)
        self.W1 = nn.Linear(d_model, d_ff)
        self.relu = nn.ReLU()
        self.W2 = nn.