背景:
最近在学习大模型相关的内容,绕不开一个概概念:Transformer。
而Transformer的核心,源自2017年的一篇论文《Attention is all you need》
在论文阅读的过程中,遇到很多数学符号,不知道怎么读,也不记得代表什么~~~
在Transformer模型中,数学符号和函数是理解其工作原理的关键。以下是对常见数学符号的介绍,包括它们的读音、含义,以及对sigmoid、softmax、ReLU、GELU等常见函数的详细解释:
常见数学符号
-
Σ(Sigma)
- 读音:英音 /'sɪɡmə/,美音 /'sɪɡmə/
- 含义:求和符号,用于表示对一系列数值进行求和。在Transformer中,可能用于计算注意力权重或损失函数等。
-
π(Pi)
- 读音:英音 /paɪ/,美音 /paɪ/
- 含义:圆周率,但在Transformer的数学表达中不常见。在更广泛的数学和物理领域中,它表示圆的周长与直径之比。
-
e
- 读音:英音 /iː/,美音 /iː/
- 含义:自然对数的底数,约等于2.71828。在Transformer中,可能出现在指数函数或softmax函数等中。
-
∂(Partial Derivative)
- 读音:英音 /'pɑːʃl dɪ'rɪvətɪv/,美音 /'pɑrʃl dɪ'rɪvətɪv/
- 含义:偏导数符号,用于表示多元函数对某一变量的导数。在Transformer的训练过程中,涉及梯度下降和反向传播时,会用到偏导数。
-
∇(Nabla)
- 读音:英音 /'neɪblə/,美音 /'neɪblə/
- **含义****:梯度符号,用于表示多元函数在某一点的梯度。在Transformer中,梯度用于更新模型的参数。
数学符号补充一:
- ∈(Element of)
- 读音:英音 /ɪn/,美音 /ɪn/
- 含义:表示某个元素属于某个集合。在Transformer中,可能用于描述词向量或隐藏状态属于某个特定的向量空间。
- ∉(Not an element of)
- 读音:英音 /nɒt ɪn/,美音 /nɑːt ɪn/
- 含义:表示某个元素不属于某个集合。
- ⊆(Subset)
- 读音:英音 /sʌb'set/,美音 /sʌb'set/(作为符号时,读音可简化为类似“subset”的发音)
- 含义:表示一个集合是另一个集合的子集。在Transformer中,可能用于描述词表或隐藏状态空间的包含关系。
- ∪(Union)
- 读音:英音 /juːnɪən/,美音 /'juːnjən/
- 含义:表示两个集合的并集。在Transformer中,可能用于合并不同的特征集或注意力权重。
- ∩(Intersection)
- 读音:英音 /ɪn'tɜːseʃn/,美音 /ɪn'tɜːrseʃn/
- 含义:表示两个集合的交集。在Transformer中,可能用于寻找共同的特征或注意力焦点。
- |x|(Absolute Value或Cardinality)
- 读音:英音 /ˈæbsəluːt ˈvæljuː/(绝对值时)或 /kɑːdɪ'nælɪti/(基数时,但较少用此符号表示),美音类似
- 含义:当x为实数时,表示x的绝对值;当x为集合时,表示集合的基数(即元素个数)。在Transformer中,可能用于计算序列长度或注意力权重的绝对值。
- ‖x‖(Norm)
- 读音:英音 /nɔːm/,美音 /nɔːrm/
- 含义:表示向量x的范数,如L1范数、L2范数等。在Transformer中,可能用于正则化或衡量向量的大小。
- ⊗(Tensor Product或Outer Product)
- 读音:英音 /'tensə prɒdʌkt/(张量积时)或 /'aʊtə prɒdʌkt/(外积时),美音类似
- 含义:表示两个向量或矩阵的张量积或外积。在Transformer中,可能用于计算注意力矩阵或特征融合。
数学符号补充二:
-
⊕(Direct Sum)
- 读音:英音 /dɪ'rekt sʌm/,美音 /dɪ'rekt sʌm/(作为符号时,读音可简化为类似“direct sum”的发音)
- 含义:表示两个向量的直和,常用于将两个向量拼接在一起。在Transformer中,可能用于拼接词嵌入向量和位置编码向量。
-
⊗(Kronecker Product)
- 读音:英音 /'krɒnɪkə prɒdʌkt/,美音 /'kroʊnɪkər prɑːdʌkt/
- 含义:表示两个矩阵的克罗内克积,是一种特殊的矩阵乘法。在Transformer中,可能用于某些特定的矩阵运算或特征融合。
-
‖·‖₂(L2 Norm)
- 读音:英音 /'dʌbəl vɜːtɪkl l two nɔːm/,美音 /'dʌbəl vɜːrtɪkl l tuː nɔːrm/(L2范数通常读作"L two norm")
- 含义:表示向量的L2范数,即向量元素平方和的平方根。在Transformer中,可能用于正则化或衡量向量的大小。
常见函数
-
Sigmoid函数
- 公式:σ(x)=1+e−x1
- 读音:英音 /'sɪɡmɔɪd/,美音 /'sɪɡmɔɪd/
- 含义:Sigmoid函数是一种S型函数,它将任何实数映射到(0,1)区间内。在Transformer中,虽然不如在二分类问题中常见,但可能用于某些特定的激活函数或门控机制中。
- 特点:平滑、易于求导,但可能存在梯度消失问题。
-
Softmax函数
- 公式:softmax(xi)=∑jexjexi
- 读音:无固定音标,可拆分为"soft"和"max"两部分发音
- 含义:Softmax函数用于将一组实数转换为概率分布,即每个实数被转换为一个介于0和1之间的值,且所有值的和为1。在Transformer中,softmax函数用于计算注意力权重,决定模型在生成输出时应该关注输入序列的哪些部分。
- 特点:输出为概率分布,适用于多分类问题。
-
ReLU函数
- 公式:ReLU(x)=max(0,x)
- 读音:英音 /'riːluː/,美音 /'riːluː/(或按字母发音为"Rectified Linear Unit"的缩写)
- 含义:ReLU函数是一种分段线性函数,当输入大于0时,输出等于输入;当输入小于或等于0时,输出为0。在Transformer中,ReLU函数常用作激活函数,引入非线性因素。
- 特点:计算简单、高效,但可能存在神经元死亡问题(即某些神经元在训练过程中永远不会被激活)。
-
GELU函数
- 公式:GELU(x)=x⋅Φ(x),其中Φ(x)是标准正态分布的累积分布函数。近似公式为GELU(x)≈0.5x(1+tanh(π2(x+0.044715x3)))或GELU(x)≈x⋅σ(1.702x)(其中σ是sigmoid函数)。
- 读音:英音 /'dʒiːluː/,美音 /'dʒiːluː/(或按字母发音为"Gaussian Error Linear Unit"的缩写)
- 含义:GELU函数是一种非线性激活函数,旨在解决传统激活函数(如ReLU)的一些局限性。它结合了ReLU的稀疏性和Sigmoid的平滑性,在负输入时允许小幅“泄漏”(非零输出),从而保留一些负值信息。
- 特点:平滑、连续导数,减少梯度消失问题,提高模型训练稳定性。在Transformer中,GELU函数常用作前馈神经网络的激活函数。
函数补充一:
- Tanh函数(双曲正切函数)
- 公式:tanh(x)=ex+e−xex−e−x
- 读音:英音 /tæn'h/,美音 /tæn'h/(或按“hyperbolic tangent”发音)
- 含义:将实数映射到(-1,1)区间内,是Sigmoid函数的变种。在Transformer中,可能用于激活函数或门控机制。
- 特点:平滑、易于求导,输出范围有限,有助于防止梯度爆炸。
- LeakyReLU函数
- 公式:LeakyReLU(x)=max(αx,x),其中α是一个小的正数(如0.01)。
- 读音:英音 /'liːki riːluː/,美音 /'liːki riːluː/
- 含义:是ReLU函数的变种,允许负输入有小幅的“泄漏”输出。
- 特点:解决了ReLU函数的神经元死亡问题,但引入了额外的超参数α。
- Swish函数
- 公式:Swish(x)=x⋅σ(βx),其中σ是Sigmoid函数,β是一个可学习的参数或固定值。
- 读音:英音 /swɪʃ/,美音 /swɪʃ/
- 含义:是一种自门控激活函数,通过Sigmoid函数来控制输入的线性变换。
- 特点:平滑、非单调,有助于提高模型的表达能力。
- ELU函数(指数线性单元)
- 公式:ELU(x)={x,α(ex−1),if x>0if x≤0,其中α是一个正数。
- 读音:英音 /'iːluː/,美音 /'iːluː/
- 含义:是ReLU函数的另一种变种,当输入小于0时,输出一个负的指数函数值。
- 特点:平滑、有助于减少梯度消失问题,但计算稍复杂。
- Mish函数
- 公式:Mish(x)=x⋅tanh(softplus(x)),其中softplus(x)=ln(1+ex)。
- 读音:无固定音标,可按“mish”发音
- 含义:是一种自正则化非单调神经激活函数,结合了ReLU和Swish的特点。
- 特点:平滑、非单调、自正则化,有助于提高模型的泛化能力。
- Log-Softmax函数
- 公式:Log−Softmax(xi)=ln(softmax(xi)),其中softmax函数如前所述。
- 读音:英音 /lɒg 'sɒftmæks/,美音 /lɑːg 'sɒftmæks/
- 含义:是softmax函数的对数变换,常用于计算对数概率或损失函数。
- 特点:将概率值转换为对数概率值,有助于数值稳定性和梯度计算。
函数补充二:
-
Exponential Linear Unit(ELU)函数
- 公式:ELU(x)={x,α(ex−1),if x>0if x≤0,其中α是一个正数。
- 含义:ELU函数是ReLU函数的变种,当输入小于0时,输出一个负的指数函数值,有助于减少梯度消失问题。
-
Swish函数
- 公式:Swishβ(x)=x⋅σ(βx)=1+e−βxx,其中σ是Sigmoid函数,β是一个可学习的参数或固定值。当β=1时,称为SiLU(Sigmoid Linear Unit)函数。
- 含义:Swish函数是一种自门控激活函数,通过Sigmoid函数来控制输入的线性变换,有助于提高模型的表达能力。
-
SwiGLU函数
- 公式:SwiGLU(x)=SiLU(xW+b)⋅(xV+c),其中SiLU是Sigmoid Linear Unit函数,W、V是权重矩阵,b、c是偏置向量。
- 含义:SwiGLU函数是Swish函数与线性函数的乘积,参数在训练中学习。它因其复杂性而流行,展开公式可见分子中的二次项,帮助模型无需额外层即可学习复杂模式。
-
Levi-Civita符号(ε)
- 含义:在物理学和数学中,Levi-Civita符号用于简洁地表达叉积等运算。在Transformer的某些高级数学表达中,可能会用到这一符号来简化张量运算的表示。
以上,仅作为学习资料记录,供学习过程中翻阅!

2609

被折叠的 条评论
为什么被折叠?



