Transformer自注意力机制中除以
d k \sqrt{d_k} dk深度剖析
【 Transformer 系列,故事从 d k \sqrt{d_k} dk说起】
LLM这么火,Transformer厥功甚伟,某天心血来潮~,再去看看!
它长这个样子: 深入浅出 Transformer
看完后,想起了老生常谈 d k \sqrt{d_k} dk问题,必须一探究竟:Transformer 中缩放点积注意力机制探讨:除以根号 dk 理由及其影响
感觉不够清楚,还是再Review下考研概率论,有了:基于考研概率论知识解读 Transformer:为何自注意力机制要除以根号 dk,中间会涉及初始化、标准化、Sofrmax函数,于是继续
【初始化相关】:深度学习中的常见初始化方法:原理、应用与比较
【标准化系列】: 数据为什么要进行标准化:Z-标准化的神奇蜕变,带出了关联知识点: 深度 “炼丹” 术之 Batch Normalization 与 Z - 标准化:开启数据的神秘转换
【Softmax复习】:Softmax 层反向传播梯度计算实例解析,中间想到了经常配套使用的交叉熵,于是梳理了交叉熵的前世今生KL 散度:多维度解读概率分布间的隐秘 “距离”
熵与交叉熵:从不确定性角度理解 KL 散度
机器学习、深度学习关于熵你所需要知道的一切
摘要
本文深入探讨了Transformer自注意力机制中除以 d k \sqrt{d_k} dk这一关键操作的原因。通过详细的推导过程揭示 d k \sqrt{d_k} dk的来源,并结合Softmax函数的特性,分析不除以 d k \sqrt{d_k} dk以及除以结果偏离 d k \sqrt{d_k} dk时对模型造成的后果及其内在原因,旨在为理解Transformer的工作原理提供全面且深入的视角。
引言
Transformer架构在自然语言处理及其他诸多领域取得了巨大成功,其自注意力机制是核心创新点之一。在自注意力机制的计算过程中,除以 d k \sqrt{d_k} dk(其中 d k d_k dk是键(Key)向量的维度)这一操作对模型的稳定性和性能起着至关重要的作用,本文结合考研中的概率知识对除以 d k \sqrt{d_k} dk进行理解。
一、考研概率论内容复习
在Transformer自注意力机制中关于方差推导主要用到了以下考研概率知识:
- 期望与方差的基本定义及性质
- 期望:期望 E ( X ) E(X) E(X) 表示随机变量 X X X 取值的平均水平。
- 方差:方差 V a r ( X ) = E [ ( X − E ( X ) ) 2 ] = E [ X 2 ] − ( E [ X ] ) 2 Var(X)=E[(X - E(X))^2]=E[X^2]-(E[X])^2 Var(X)=E[(X−E(X))2]=E[X2]−