【大模型实战系列】第四章对《Attention Is All You Need》的详细解读数学解构与代码复现

最新推荐文章于 2025-12-02 15:55:42 发布

VectorShift

最新推荐文章于 2025-12-02 15:55:42 发布

阅读量626

点赞数

CC 4.0 BY-SA版权

分类专栏：人工智能技术白皮书文章标签：人工智能学习目标检测

本文链接：https://blog.youkuaiyun.com/VectorShift/article/details/150117837

人工智能技术白皮书专栏收录该内容

156 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

第一部分：原理与数学推导篇

第一章：前Transformer时代——顺序计算的数学瓶颈

1.2 长距离依赖的梯度问题

第二章：核心创新——缩放点积注意力的数学解构

2.2 第一步：计算兼容性函数（Compatibility Function）

2.3 第二步：

2.4 第三步：Softmax归一化为注意力权重

2.5 第四步：加权求和得到输出最后，用得到的注意力权重矩阵 A 对值矩阵 V 进行加权求和，得到最终的输出。

第三章：架构的巧思——构建完整的Transformer模型

3.1 多头注意力（Multi-Head Attention）

3.2 位置编码（Positional Encoding）编辑。

3.3 整体架构：残差连接、层归一化与前馈网络编辑

第二部分：代码与实践篇 - 数学推导的PyTorch实现

第一部分：原理与数学推导篇

2017年，Vaswani等人在论文《Attention Is All You Need》中提出的Transformer模型，是深度学习领域的一座分水岭。它不仅是在模型性能上的突破，更是一次底层计算范式的革命。要理解其深刻影响，我们必须首先理解它所解决的问题，以及其解决方案在数学上的优雅与必然性。

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

VectorShift

关注关注

0
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

【大模型实战系列】导读从基础模型到具身智能的系统性学习路径

VectorShift的博客

08-09

979

具身AI（Embodied AI）标志着从“互联网AI”的范式转变，智能体不再仅仅从静态数据集中学习，而是通过传感器和执行器与物理环境进行实时交互，从第一人称视角（egocentric perception）进行学习。这种学习方式被认为是实现通用人工智能（AGI）的关键一步。

Agent 架构综述：从 Prompt 到 Context

volcenginetod的博客

08-26

785

Prompt Engineering 是与大型语言模型（LLM）交互的基础，其核心在于精心设计输入内容，以引导模型生成期望的输出。这一实践为理解 Context Engineering 的必要性提供了基准。

参与评论您还未登录，请先登录后发表或查看评论

PaperCoder实战：1小时复现Transformer论文，多智能体框架如何解决代码生成三大陷阱？

07-08

648

本文提出PaperCoder多智能体框架，用于解决Transformer等复杂模型复现中的核心难题。该框架通过四智能体协同（论文解析、代码生成、接口协调、调试），有效攻克维度偏差、梯度黑洞和编码歧义三大痛点。实验显示，相较于人工实现，该框架将复现时间缩短94%，消除全部维度错误，并提升模型性能。未来将重点突破公式歧义解析和跨论文知识迁移等方向。

生成对抗网络GAN论文总结+复现代码(已完成29篇)

热门推荐

iiiiiiimp的博客

01-06

5万+

GAN论文总结

一个对 AI Agent 构建零经验的入门者，应当对现在的主流 Agent 技术选型有完整的知识储备

python123456_的博客

09-01

850

本部分旨在建立 Prompt Engineering 与 Context Engineering 的基础概念，清晰地界定二者之间的区别与联系。从前者到后者的转变，代表了人工智能应用开发领域一次关键的演进——从业界最初关注的战术性指令构建，转向由可扩展、高可靠性系统需求驱动的战略性架构设计。一个提示（Prompt）远不止一个简单的问题，它是一个结构化的输入，可包含多个组成部分。对模型的核心任务指令，明确告知模型需要执行什么操作。模型需要处理的文本或数据，是分析、转换或生成任务的对象。

51c大模型~合集82

whaosoft~aiotの开发板商城

12-02

2123

最后，还比较了Delta-Tuning和Delta-Compression的效果差异（Delta-Tuning指的是通过训练部分参数进行微调，Delta-Compression指的是先进行全参数微调，再将微调带来的模型参数增量进行压缩）。如果法院不批准禁令，马斯克的律师团队声称会对市场造成「无可挽回的伤害」（irreparable harm），禁止OpenAI的非营利性质变更后，OpenAI在继续接受新投资的情况下，「几乎不可能撤销」公司的交易，也就不会造成「大规模投资损失」。ChatGPT已经2岁了！

51c大模型~合集132

whaosoft~aiotの开发板商城

05-28

3092

团队从数据的每个查询 x 中抽取开头词 w，然后构造相应的 SFT 数据对 (Q (w), x)，此外，团队还构造了一些负样本来帮助模型识别没有在训练中出现过的开头词，即对于没有在 D_1 中出现过的开头词 w’, 团队构造一条相应的拒绝回复 R (w’)，表明没有见过相应的训练数据，这类数据构成的数据对为 (Q (w’),R (w’))。该打分公式的主要思想是，模型拒绝回复的可能性越低，或者模型一直重复某个特定的输出，都表明该开头词更有可能是真实在训练数据中出现的开头词。

51c大模型~合集1

whaosoft~aiotの开发板商城

09-20

3355

大模型相关可到我的 51c地盘看哦~

51c大模型~合集121

whaosoft~aiotの开发板商城

04-25

1494

以上结果说明 ICL 模型能够学习到预训练任务集上最优的学习算法，并且与传统的元学习器相比 ICL 模型具有更强的表达能力，因为它们不仅能够学习到已知的最优学习算法，还能够根据数据的分布特性表达出传统视野之外的学习算法，这使得 ICL 模型在处理多样化任务时具有显著优势。借助元学习领域成熟的理论基础与方法经验，理论证明了作为实现学习算法的模型，基于 transformer 的 ICL 模型与传统的元学习器相比具有更强的表达能力（图 1 右）。我们还对 ICL 模型学习到的算法的泛化性进行了实验研究。

51c大模型~合集124

whaosoft~aiotの开发板商城

05-05

1828

昨日，会议主办方公布了本年度时间检验奖，授予 UCSD 与微软研究院合著的论文《Deeply-Supervised Nets》（深度监督网络），共同一作分别为 Chen-Yu Lee（现为谷歌研究科学家）和 AI 圈所熟知的谢赛宁（现为纽约大学助理教授）。为了比较 DSN 与 CNN 分别学习到什么特征，本文从 CIFAR-10 数据集的十个类别中各选取一个示例图像，运行一次前向传播，并在图 (3) 中展示从第一个（底部）卷积层学习到的特征图。DSN 学习到的特征图比 CNN 学习到的特征图更直观。

TensorRT笔记（5）：研究timingCache

最新发布

ouliten的博客

12-02

454

在里出现了大量的timingCache，但是当时没有取研究这是干啥的，本文就来解析一下。样例都基于上面的文章。

向量嵌入：RAG系统背后的语义引擎

uncle_ll的博客

11-29

1386

向量嵌入技术将高维语义信息压缩为低维向量，使相似概念在向量空间中聚集。作为RAG系统的核心，嵌入质量直接影响语义检索效果。从静态词嵌入到动态上下文嵌入，技术不断演进，解决了多义词等难题。现代嵌入模型基于Transformer架构，通过对比学习优化检索性能。选型需考虑MTEB排名、语言支持等维度，并结合业务测试。未来趋势包括多模态融合、知识图谱增强和轻量化部署。嵌入技术已成为NLP领域的关键支柱，其优化对提升RAG系统性能至关重要。

人工智能领域博客

11-28

1850

摘要：本文详细解释了Spark Driver端与Worker端在OSS认证上的核心区别。Driver端通过Spark配置自动认证，而Worker端（独立Python进程）需显式提供认证信息。认证来源优先级为：1)Driver传递参数，2)环境变量，3)IAM角色。文章分析了架构差异导致的不同认证方式，并推荐从Driver传递认证信息的解决方案。当前实现已采用该方案，通过Spark配置或环境变量获取认证后传递给Worker进程，确保PyArrow能正确访问OSS数据。

07_Spring AI 干货笔记之提示词

在科技的浪潮中，我们寻找着创新的火种，在代码的海洋里，我们编织着智慧的网。腾飞开源，就是这样一个由技术精英汇聚而成的博客平台，我们致力于分享在Java、Python、IoT和人工智能等领域的最新研究成果和实战经验。在腾飞开源的博客上，你会看到紧跟技术前

11-30

1582

本文详细介绍了Spring AI中的提示词核心概念与API设计。提示词作为引导AI模型生成特定输出的关键输入，其结构从简单字符串演进为包含多角色消息的复杂形式。Spring AI通过Prompt和Message接口提供结构化提示词管理，支持系统、用户、助手等角色分配。PromptTemplate类实现动态内容渲染，并支持自定义模板引擎。文章还涵盖提示词工程的最佳实践与令牌机制，为开发者提供完整的提示词设计解决方案。

【LLM】DeepSeekMath-V2模型

发现问题，并解决问题，批判性思维

11-29

1172

研究问题：这篇文章要解决的问题是如何在大型语言模型（LLMs）中进行自我验证的数学推理。具体来说，现有的基于最终答案奖励的强化学习方法在数学推理中存在根本局限性，因为正确答案并不能保证推理的正确性，特别是在定理证明任务中。研究难点：该问题的研究难点包括：如何在不依赖最终答案的情况下验证推理的正确性；如何在生成和验证之间建立有效的迭代改进循环；如何在没有已知解决方案的开放问题上扩展测试时计算。相关工作：该问题的研究相关工作有：OpenAI的推理模型在定量推理竞赛中取得了显著进展；DeepMind的Deep

YOLOv8训练过程日志-深度解析

搏博的专栏

11-28

1024

特别值得注意的是不同类别的性能差异：phone类别的召回率达到0.462，明显高于car类别的0.286，这可能源于两个类别在训练数据中的分布差异、目标特征的明显程度等因素。值得注意的是，损失函数的下降过程并非单调的，而是存在一定的波动，这是梯度下降优化的正常现象。值得注意的是，虽然训练提前停止，但模型已经学习到了有意义的特征表示，这为后续的微调或迁移学习奠定了基础。的训练中，这些指标虽然数值较低，但这在小型数据集和有限训练时间的条件下是正常的，重要的是观察这些指标在训练过程中的变化趋势。

概率单位回归（Probit Regression）详解

拒绝AI玄学，只聊真技术▲

11-28

1035

概率单位回归（）是一种基于正态分布累积函数的广义线性模型，专门用于分析二分类因变量与自变量之间的关系。该模型假设事件发生概率服从标准正态分布，通过回归系数建立解释变量与概率值的线性关系，输出结果表现为0-1之间的概率值。Probit回归作为统计学和机器学习中的重要工具，通过连接概率世界和正态分布，为分析二元响应数据提供了强大的方法论基础。从Bliss在1934年开创性的工作到Rosett和Nelson在1975年的扩展，Probit模型已在经济学、医学、生态学和市场营销等多个领域证明了其价值。💡。

Product Hunt 每日热榜 | 2025-11-28

LaughingZhu的博客

11-28

540

Product Hunt 每日热榜 | 2025-11-28 Links 2.0 是一款全新设计的应用程序，旨在帮助你在各个设备之间保存、整理和查找链接。这款为 iOS 26 打造的应用引入了新的导航栏，全新的首页展示最近链接，增强的过滤功能，个性化的主题色，以及全新的设置界面和应用图标。它默认保护隐私，支持 iCloud 同步，使用起来无需注册账户或担心被追踪。

智镜随行：基于Rokid CXR-M SDK的智能眼镜无障碍辅助系统开发实践

Rqaqedamancy的博客

11-28

819

摘要：本文介绍了基于Rokid CXR-M SDK开发的视障辅助系统「智镜随行」，通过AR眼镜与手机的协同实现无障碍辅助功能。系统利用眼镜端采集第一视角图像与语音，手机端调用多模态AI模型（OCR、目标检测、大语言模型）进行环境理解，并将结构化信息通过TTS实时反馈给用户。采用三层架构设计，结合蓝牙/Wi-Fi双通道通信，实现低延迟交互。开发中严格遵循SDK接口规范，完成设备连接、图像处理、语音交互等核心功能模块，为视障人士提供实时环境感知与导航辅助，展示了Rokid生态在普惠科技领域的应用潜力。

attention is all you need 代码复现

04-19

### 关于《Attention is All You Need》的代码复现教程或实现示例 #### Transformer模型的核心组件概述 Transformer是一种基于自注意力机制（Self-Attention Mechanism）的神经网络架构，其设计初衷是为了替代传统RNN/CNN在序列建模中的应用。为了弥补纯注意力机制缺乏时序信息的问题，论文提出了位置编码（Positional Encoding）的概念[^1]。 #### 自注意力机制的核心公式自注意力机制通过计算查询（Query）、键（Key）和值（Value）之间的关系来捕捉输入序列的不同部分的重要性。具体而言，其核心公式如下所示[^2]: \[ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V \] 其中 \( Q \), \( K \), 和 \( V \) 是分别由输入矩阵线性变换得到的查询、键和值向量；\( d_k \) 表示键向量的维度大小。 #### 位置编码（Positional Encoding）由于注意力机制本身无法捕获序列中的时间/空间顺序信息，因此需要显式地加入位置编码。位置编码可以采用正弦和余弦函数的形式定义，从而使得模型能够学习到不同位置上的特征差异: 对于给定的位置 \( pos \)，以及第 \( i \)-维的位置编码分量： \[ PE_{(pos, 2i)} = \sin(pos / 10000^{2i/d}) \] \[ PE_{(pos, 2i+1)} = \cos(pos / 10000^{2i/d}) \] 这种形式化方法允许模型自动推断任意长度序列的位置信息。 #### PyTorch实现示例下面提供了一个简单的PyTorch版本的Transformer模块实现： ```python import math import torch import torch.nn as nn import torch.nn.functional as F class MultiHeadedAttention(nn.Module): def __init__(self, num_heads, dim_model, dropout=0.1): super(MultiHeadedAttention, self).__init__() assert dim_model % num_heads == 0 self.d_k = dim_model // num_heads self.num_heads = num_heads self.linears = clones(nn.Linear(dim_model, dim_model), 4) self.attn = None self.dropout = nn.Dropout(p=dropout) def forward(self, query, key, value, mask=None): if mask is not None: mask = mask.unsqueeze(1) nbatches = query.size(0) query, key, value = \ [l(x).view(nbatches, -1, self.num_heads, self.d_k).transpose(1, 2) for l, x in zip(self.linears, (query, key, value))] x, self.attn = attention(query, key, value, mask=mask, dropout=self.dropout) x = x.transpose(1, 2).contiguous().view(nbatches, -1, self.num_heads * self.d_k) return self.linears[-1](x) def attention(query, key, value, mask=None, dropout=None): scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(query.size(-1)) if mask is not None: scores = scores.masked_fill(mask == 0, -1e9) p_attn = F.softmax(scores, dim=-1) if dropout is not None: p_attn = dropout(p_attn) return torch.matmul(p_attn, value), p_attn def positional_encoding(max_len, d_model, device=torch.device('cpu')): pe = torch.zeros(max_len, d_model, device=device) position = torch.arange(0., max_len, device=device).unsqueeze(1) div_term = torch.exp(torch.arange(0., d_model, 2, device=device) * -(math.log(10000.) / d_model)) pe[:, 0::2] = torch.sin(position * div_term) pe[:, 1::2] = torch.cos(position * div_term) return pe.unsqueeze(0) ``` 以上代码片段展示了如何构建一个多头注意力层及其辅助函数`attention()`，同时也给出了位置编码的具体实现方式。 #### 总结通过对《Attention is All You Need》的理解与实践，我们可以看到Transformer模型的强大之处在于它的高效性和灵活性。无论是机器翻译还是其他NLP任务，Transformer都展现出了卓越的表现力。

【大模型实战系列】第四章 对《Attention Is All You Need》的详细解读 数学解构与代码复现

第一部分：原理与数学推导篇

【大模型实战系列】第四章对《Attention Is All You Need》的详细解读数学解构与代码复现