基于考研概率论知识解读 Transformer：为何自注意力机制要除以根号 dk

进一步有进一步的欢喜

已于 2025-01-11 13:06:48 修改

阅读量1.4k

点赞数 31

CC 4.0 BY-SA版权

分类专栏：数学原理文章标签：考研 transformer 深度学习

于 2025-01-11 02:04:03 首次发布

本文链接：https://blog.youkuaiyun.com/qq_22866291/article/details/145068331

`Transformer自注意力机制中除以` $\sqrt{d_k}$ `深度剖析`

【 Transformer 系列，故事从 $\sqrt{d_k}$ 说起】

LLM这么火，Transformer厥功甚伟，某天心血来潮~，再去看看！

它长这个样子：深入浅出 Transformer

看完后，想起了老生常谈 $\sqrt{d_k}$ 问题，必须一探究竟：Transformer 中缩放点积注意力机制探讨：除以根号 dk 理由及其影响

感觉不够清楚，还是再Review下考研概率论，有了：基于考研概率论知识解读 Transformer：为何自注意力机制要除以根号 dk，中间会涉及初始化、标准化、Sofrmax函数，于是继续

【初始化相关】：深度学习中的常见初始化方法：原理、应用与比较
【标准化系列】：数据为什么要进行标准化：Z-标准化的神奇蜕变，带出了关联知识点: 深度 “炼丹” 术之 Batch Normalization 与 Z - 标准化：开启数据的神秘转换
【Softmax复习】：Softmax 层反向传播梯度计算实例解析，中间想到了经常配套使用的交叉熵，于是梳理了交叉熵的前世今生

KL 散度：多维度解读概率分布间的隐秘 “距离”
熵与交叉熵：从不确定性角度理解 KL 散度
 机器学习、深度学习关于熵你所需要知道的一切

摘要

本文深入探讨了Transformer自注意力机制中除以 $\sqrt{d_k}$ 这一关键操作的原因。通过详细的推导过程揭示 $\sqrt{d_k}$ 的来源，并结合Softmax函数的特性，分析不除以 $\sqrt{d_k}$ 以及除以结果偏离 $\sqrt{d_k}$ 时对模型造成的后果及其内在原因，旨在为理解Transformer的工作原理提供全面且深入的视角。

引言

Transformer架构在自然语言处理及其他诸多领域取得了巨大成功，其自注意力机制是核心创新点之一。在自注意力机制的计算过程中，除以 $\sqrt{d_k}$ （其中 $d_k$ 是键（Key）向量的维度）这一操作对模型的稳定性和性能起着至关重要的作用，本文结合考研中的概率知识对除以 $\sqrt{d_k}$ 进行理解。