基于考研概率论知识解读 Transformer:为何自注意力机制要除以根号 dk

Transformer自注意力机制中除以 d k \sqrt{d_k} dk 深度剖析

【 Transformer 系列,故事从 d k \sqrt{d_k} dk 说起

LLM这么火,Transformer厥功甚伟,某天心血来潮~,再去看看!

它长这个样子深入浅出 Transformer

看完后,想起了老生常谈 d k \sqrt{d_k} dk 问题,必须一探究竟Transformer 中缩放点积注意力机制探讨:除以根号 dk 理由及其影响

感觉不够清楚,还是再Review下考研概率论,有了基于考研概率论知识解读 Transformer:为何自注意力机制要除以根号 dk中间会涉及初始化、标准化、Sofrmax函数,于是继续

【初始化相关】深度学习中的常见初始化方法:原理、应用与比较
【标准化系列】 数据为什么要进行标准化:Z-标准化的神奇蜕变带出了关联知识点: 深度 “炼丹” 术之 Batch Normalization 与 Z - 标准化:开启数据的神秘转换
【Softmax复习】Softmax 层反向传播梯度计算实例解析中间想到了经常配套使用的交叉熵,于是梳理了交叉熵的前世今生

KL 散度:多维度解读概率分布间的隐秘 “距离”
熵与交叉熵:从不确定性角度理解 KL 散度
机器学习、深度学习关于熵你所需要知道的一切

摘要

本文深入探讨了Transformer自注意力机制中除以 d k \sqrt{d_k} dk 这一关键操作的原因。通过详细的推导过程揭示 d k \sqrt{d_k} dk 的来源,并结合Softmax函数的特性,分析不除以 d k \sqrt{d_k} dk 以及除以结果偏离 d k \sqrt{d_k} dk 时对模型造成的后果及其内在原因,旨在为理解Transformer的工作原理提供全面且深入的视角。

引言

Transformer架构在自然语言处理及其他诸多领域取得了巨大成功,其自注意力机制是核心创新点之一。在自注意力机制的计算过程中,除以 d k \sqrt{d_k} dk (其中 d k d_k dk是键(Key)向量的维度)这一操作对模型的稳定性和性能起着至关重要的作用,本文结合考研中的概率知识对除以 d k \sqrt{d_k} dk 进行理解。


一、考研概率论内容复习

在Transformer自注意力机制中关于方差推导主要用到了以下考研概率知识:

在这里插入图片描述

  1. 期望与方差的基本定义及性质
    • 期望:期望 E ( X ) E(X) E(X) 表示随机变量 X X X 取值的平均水平。
    • 方差:方差 V a r ( X ) = E [ ( X − E ( X ) ) 2 ] = E [ X 2 ] − ( E [ X ] ) 2 Var(X)=E[(X - E(X))^2]=E[X^2]-(E[X])^2 Var(X)=E[(XE(X))2]=E[X2]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

进一步有进一步的欢喜

您的鼓励将是我创作的最大动力~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值