从零开始了解transformer的机制|第三章：self attention

最新推荐文章于 2025-12-30 21:50:37 发布

原创最新推荐文章于 2025-12-30 21:50:37 发布 · 546 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

文章介绍了Transformer中关键的self-attention计算关联度方法，涉及向量点积和如何在深度学习的attention机制中理解Q、K、V的作用。通过类比人类先验经验和详细图解帮助读者掌握这一过程。

第三步：算出各个词汇之间的关联度——self attention

为什么要算关联度？

这是 Transformer 的关键步骤之一。它允许模型在一个序列中的不同位置关注其他位置的信息，从而捕捉长距离的依赖关系。

怎么算关联度？

要是人的话，要理解关联度，可能就是靠先验经验。比如根据先验经验，我们知道苹果和香蕉是比较关联的两个东西。但是机器怎么算出关联度呢？答案是：用向量点积运算的大小。

这边我觉得知乎大佬的一篇文章讲的比我好：超详细图解Self-Attention - 知乎 (zhihu.com)

看完后就差不多理解了self attention的流程了。

但是里面对于Q,K,V的意义还解释的不太清楚。这里补充一下：

原文：深度学习attention机制中的Q,K,V分别是从哪来的？ - 知乎

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Odd Function

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

PyTorch实战（9）——从零开始实现Transformer

盼小辉丶的博客

10-20

8116

在本节中，我们探讨了以注意力机制为核心的 Transformer 模型(在多项序列任务中超越所有循环模型)，并使用 PyTorch 构建了一个 Transformer 模型，用于语言建模任务。详细探讨了 Transformer 架构以及使用 PyTorch 进行实现的方法，并使用 Penn Treebank 数据集和 torchtext 加载和处理数据集。然后，训练 Transformer 模型，并在测试集上对其进行了评估。

Transformer实战（4）——从零开始构建Transformer

盼小辉丶的博客

08-15

1万+

相较于传统模型，如循环神经网络 (RNN)，Transformer 的优势在于能够理解输入和输出序列中元素之间的关系，在大语言模型 (如 ChatGPT 和 DeepSeek) 的发展中起到了关键作用，为了从零开始构建 Transformer，首先探讨自注意力机制，包括查询 (query)、键 (key) 和值 (value) 向量，以及缩放点积注意力 (SDPA)。将层归一化和残差连接集成到多头注意力层中，并与前馈层结合，构建编码器层，堆叠编码器层构建编码器，还将实现 Transformer 中的解码器。

1 条评论您还未登录，请先登录后发表或查看评论

从零开始了解transformer的机制|第零章：宏观理解+核心概念

weixin_73179708的博客

08-17

378

虽然是从零开始，但是我也不可能真的从底层数学开始讲。所以，读这篇文章时，默认你知道：高数线性代数的矩阵运算了解MLP搞定之后就让我们开始吧。

Transformer | 一文了解：缩放、批量、多头、掩码、交叉注意力机制（Attention）

yinizhilianlove的博客

03-27

1006

这篇文章填补了之前对Attention综述介绍，本文更加细节，利用纯Python和Numpy实现注意力模块，并解释了整个过程中的所有向量维度的变化，对刚入门的新手非常友好。

从零开始的Transformer算法实现：字符串翻译实战

weixin_42588555的博客

06-11

724

随着自然语言处理（NLP）技术的迅猛发展，Transformer算法已经成为一种主流的模型架构。本章我们将深入探讨Transformer算法的起源、其核心组件以及为什么它能够成为处理序列数据的重要工具。注意力机制（Attention Mechanism）是深度学习领域的一次重要创新，它起源于对人类视觉注意力的模拟。在人类视觉系统中，当我们观察周围环境时，并非对所有信息同等关注，而是选择性地集中注意力于某些关键部分。这一过程允许我们更有效地处理信息。

从零实现Transformer的简易版与强大版：从300多行到3000多行

热门推荐

结构之法算法之道

04-12

4万+

transformer强大到什么程度呢，基本是17年之后绝大部分有影响力模型的基础架构都基于的transformer(比如，有200来个，包括且不限于基于decode的GPT、基于encode的BERT、基于encode-decode的T5等等)通过博客内的这篇文章《》，我们已经详细了解了transformer的原理(如果忘了，建议先务必复习下再看本文)

大模型从零开始——Transformer代码解读

木亦汐丫

02-18

3297

Transformer代码解读 - 来自哈佛大学NLP实验室关于Transformer的一篇开源博客The Annotated Transformer。由编码器和解码器组成，每个编码器层由两个子层连接结构组成：第一个子层包括一个多头自注意力层；第二个子层包括一个逐位前馈全连接层；每两个子层的前后都采用了残差连接，然后进行层归一化；每个解码器层由三个子层连接结构组成，第一个子层连接结构包括一个掩码多头自注意力子层，第二个子层连接结构包括一个多头注意力子层，第三个子层连接结构包括一个逐位前馈全连接子层。

NLP：self-attention + Transformer

Puzzle的博客

07-22

501

前言通常认为RNN有两个缺点：1、RNN隐藏层中记录的较早信息会随着时间步的推移而冲淡，所以就无法建立起和较早时间步信息的依赖关系。2、RNN不能并行化处理。因而催生出了attention解决上述问题。 Attention机制的本质来自于人类视觉注意力机制。人们视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看，而往往是根据需求观察注意特定的一部分。而且当人们发现一个场景经常在某部分出现自己想观察的东西时，人们会进行学习在将来再出现类似场景时把注意力放到该部分上。背...

AIGC入门（一） 从零开始搭建Transformer！（上）

alxws的博客

06-27

2401

从零开始搭建Transformer模型。该篇为上半章节。

【深度学习】从零开始构建 Transformer：完整代码、原理解析：《Attention Is All You Need》

weixin_41645791的博客

03-30

1118

本文全面解析了 Transformer 模型的原理与实现，详细介绍了模型背景、核心技术、各模块设计及代码实现。文章从词嵌入、位置编码、注意力机制、多头注意力、前馈网络、层归一化到残差连接，逐层剖析 Transformer 模型的设计思路，并提供了完整的 PyTorch 代码实现。文中还讨论了掩码生成和参数初始化的细节，为读者深入理解 Transformer 模型及其优化提供了实战指南。无论你是 NLP 新手还是深度学习专家，都能从中获得启发，助力你在实际项目中成功应用 Transformer 模型。

08-27

%% 第三步：准备训练和测试数据 (确保无NaN) % 训练-测试集划分 split_ratio = 0.8; split_idx = floor(split_ratio * num_times); train_X = X(1:split_idx); train_A = A(1:split_idx); test_X = X(split_idx+1:...

机器学习——贝叶斯

2401_83998832的博客

12-29

1238

正向概率：假设袋子里有10个白球，90个黑球，然后从袋子里面拿出1个球，拿出的球是白球的概率是多少？显然，白球的概率是1/10逆向概率：如果我们事先并不知道袋子里白球、黑球的比例，然后通过多次试验，根据拿出来的球的颜色推测袋子里白球、黑球的比例贝叶斯分类器的代码使用：朴素贝叶斯算法，中文处理classalpha=1.0参数：1.多项式分布的朴素贝叶斯。2.控制模型拟合时的平滑度定义：alpha是一个浮点数，表示添加剂（拉普拉斯/Lidstone）平滑参数。

CHIPX Global 计划在马来西亚建设一座 8 英寸氮化镓/碳化硅（GaN/SiC）晶圆制造工厂

qq_28126171的博客

12-25

171

总部位于都柏林的爱尔兰 CHIPX 公司，计划于马来西亚设立一座 8 英寸氮化镓/碳化硅（GaN - on - SiC）晶圆制造工厂。CHIPX 公司宣称，其专注于 GaN - on - SiC 技术，能够制造出具备高耐压特性的功率集成电路以及光子器件。此类核心技术对于人工智能数据中心、电视以及航空航天领域的高性能系统而言，具有举足轻重的意义。除了开展工厂建设工作，CHIPX 还谋划打造一个垂直整合的平台。该平台涵盖有组织的技术转让、工程合作伙伴关系以及针对当地人才的专项培养计划等内容。

戴西软件AICrash：基于机器学习的行人保护仿真新范式

2501_94173415的博客

12-26

335

AICrash行人保护模块是戴西基于人工智能算法和行人保护法规开发出来的快速行人保护评价的解决方案。提取发罩曲率分布、厚度梯度、加强筋拓扑等300+空间参数（如图示特征热力图），构建结构化数据库。在CAxWorks.VPG平台中自动处理几何清理、网格划分、材料赋值，生成标准化的有限元模型。通过对模型特征数据的提取，建立有效的预测模型。通过机器学习的算法优化和大数据模型的训练，可以得到更加快速、便捷和可靠的分析手段。一键生成发罩HIC分布云图，自动标记超标区域（如边缘弱区），输出结构强化建议。

隐语SML0.1.0版本发布！SPU开源机器学习Python算法库

m0_69580723的博客

12-26

590

摘要：隐语SML 0.1.0版本正式发布，这是一个专注于隐私保护的Python机器学习库，旨在构建安全版scikit-learn。该版本支持数十种核心算法，涵盖监督学习、无监督学习、数据预处理和模型评估等主要领域，所有算法均针对MPC场景优化。SML现可从PyPI安装，支持金融、医疗等对数据隐私要求高的场景。项目团队邀请开发者共同建设隐私计算时代的机器学习生态，未来将持续完善算法覆盖、API设计和文档体系。

机器学习--SVM

2301_77717128的博客

12-29

245

在SVM中我们不用0和1来区分，使用+1和-1来区分，这样更严格，假设超平面可以将训练的样本正确。想象你在平面上有两类点（红点和蓝点），SVM的目标是找到一条最优的。是一种经典的监督学习算法，主要用于。（这就是"最大间隔"）

机器学习--K-means聚类&DBSCAN&TF-IDF