7、深入解析Transformer架构：从编码到解码

最新推荐文章于 2025-11-04 10:50:42 发布

吃瓜不吐籽595

最新推荐文章于 2025-11-04 10:50:42 发布

阅读量29

点赞数

CC 4.0 BY-SA版权

分类专栏：解码Transformer：从理论到应用文章标签： Transformer 注意力机制编码器

本文链接：https://blog.youkuaiyun.com/oauth7security/article/details/151096964

解码Transformer：从理论到应用专栏收录该内容

32 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深入解析Transformer架构：从编码到解码

1. 注意力机制与前馈层

在示例中，输入由两个句子组成， [CLS] 和 [SEP] 是BERT分词器中的特殊标记。从可视化结果可以看出，属于同一句子的单词之间的注意力权重最强，这表明BERT能够识别出应关注同一句子中的单词。例如，对于单词 “flies”，BERT能在第一个句子中识别出 “arrow” 等重要信息，在第二个句子中识别出 “fruit” 和 “banana”，这些注意力权重使模型能够根据上下文区分 “flies” 作为动词或名词的用法。

接下来，我们来实现编码器层中缺失的部分：位置前馈网络。前馈子层是一个简单的两层全连接神经网络，但有一个特点，它不是将整个嵌入序列作为单个向量处理，而是独立处理每个嵌入，因此也被称为位置前馈层。在计算机视觉领域，它有时也被称为核大小为1的一维卷积。通常，第一层的隐藏大小设为嵌入大小的四倍，最常用的激活函数是GELU。以下是实现代码：

class FeedForward(nn.Module): 
    def __init__(self, config): 
        super().__init__() 
        self.linear_1 = nn.Linear(config.hidden_size, config.intermediate_size) 
        self.linear_2 = nn.Linear(config.intermediate_size, config.hidden_size) 
        self.gel

会员秒杀 ¥9.9 重磅福利

超级会员免费看