4、自然语言处理中的注意力机制与分词技术

对方正在偷人346

于 2025-09-14 11:47:01 发布

阅读量14

点赞数

CC 4.0 BY-SA版权

分类专栏：解密Transformer与大模型文章标签：注意力机制多头注意力自注意力

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/grpc6streamer/article/details/152641094

解密Transformer与大模型专栏收录该内容

27 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

自然语言处理中的注意力机制与分词技术

在自然语言处理领域，注意力机制和分词技术是两个至关重要的概念。下面将详细介绍它们的原理、计算方法以及相关的挑战。

注意力机制

注意力机制是Transformer架构中的核心组成部分，它能够帮助模型从文本中获取上下文信息。下面将介绍自注意力机制和多头注意力机制的计算过程。

自注意力机制

自注意力机制的计算主要涉及三个矩阵：查询矩阵（Q）、键矩阵（K）和值矩阵（V）。它们的计算方式如下：
- (Q = X W_q)
- (K = X W_k)
- (V = X*W_v)

其中，(X)是一个4x512的矩阵，(W_q)、(W_k)和(W_v)是512x64的矩阵，因此(Q)、(K)和(V)的维度都是4x64。每个矩阵的每一行都对应输入句子 “I love Chicago pizza.” 中的一个单词，但它们的内容与(X)不同。

接下来，计算(Q*K^T)，得到一个4x4的自注意力矩阵，该矩阵表示输入句子中每个标记与其他标记的相似度。例如：
| | y1 | y2 | y3 | y4 |
| — | — | — | — | — |
| y1 | 0.823 | 4.432 | 2.789 | 123 |
| y2 | 2.382 | 3.432 | 8.786 | 456 |
| y3 | 3.569 | 2.432 | 5.783 | 789 |
| y4 | 5.277 | 0.426 | 0.123 | 432 |

矩阵的对角线元素表示每个输入标记与自

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。