22、注意力机制与Transformer模型详解

注意力机制与Transformer详解

pear55

于 2025-08-27 13:39:40 发布

阅读量32

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习实战指南文章标签：注意力机制 Transformer模型多头注意力

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/pear55/article/details/151217216

深度学习实战指南专栏收录该内容

31 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

注意力机制与Transformer模型详解

1. 注意力机制优势概述

注意力机制与循环神经网络（RNN）在处理序列时存在显著差异，主要优势如下：
- 直接访问序列元素 ：RNN将输入元素信息编码在单个隐藏向量中，理论上代表所有序列元素的浓缩版本，但实际中，它在处理约100个标记的序列后，新标记会开始抹去旧标记的信息，代表能力有限。而注意力机制可直接访问所有输入序列元素，虽然对最大序列长度有严格限制，但截至目前，基于Transformer的大语言模型（LLM）能处理超过32,000个标记的序列。
- 输入序列并行处理 ：RNN按顺序逐个处理输入序列元素，无法并行化。注意力机制则完全由矩阵乘法运算组成，这些运算非常适合并行处理，这使得在大型训练数据集上训练具有数十亿可训练参数的LLM成为可能。

不过，注意力机制也有缺点，即它不像RNN那样能保留序列元素的顺序。但在Transformer编码器部分会介绍解决此限制的方法。

2. 实现注意力机制

2.1 缩放点积注意力实现

首先实现常规的缩放点积注意力，公式为 $Attention(Q, K, V) = softmax(QK^T / \sqrt{d_k})V$，其中 $Q$ 为查询，$K$ 为键，$V$ 为值。代码如下：

import math

def attention(query, key, value, mask=None, dropout=None):
    d_k = query.size(-1)

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。