大模型学习笔记——学习前的基础准备：论文中常见的数学符号与函数回顾

原创于 2025-12-23 20:43:00 发布 · 425 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#数学符号 #数学函数 #Transformer学习

大模型同时被 2 个专栏收录

7 篇文章

订阅专栏

数学

1 篇文章

订阅专栏

背景：

最近在学习大模型相关的内容，绕不开一个概概念：Transformer。

而Transformer的核心，源自2017年的一篇论文《Attention is all you need》

在论文阅读的过程中，遇到很多数学符号，不知道怎么读，也不记得代表什么~~~

在Transformer模型中，数学符号和函数是理解其工作原理的关键。以下是对常见数学符号的介绍，包括它们的读音、含义，以及对sigmoid、softmax、ReLU、GELU等常见函数的详细解释：

常见数学符号

Σ（Sigma）
- 读音：英音 /'sɪɡmə/，美音 /'sɪɡmə/
- 含义：求和符号，用于表示对一系列数值进行求和。在Transformer中，可能用于计算注意力权重或损失函数等。
π（Pi）
- 读音：英音 /paɪ/，美音 /paɪ/
- 含义：圆周率，但在Transformer的数学表达中不常见。在更广泛的数学和物理领域中，它表示圆的周长与直径之比。
e
- 读音：英音 /iː/，美音 /iː/
- 含义：自然对数的底数，约等于2.71828。在Transformer中，可能出现在指数函数或softmax函数等中。
∂（Partial Derivative）
- 读音：英音 /'pɑːʃl dɪ'rɪvətɪv/，美音 /'pɑrʃl dɪ'rɪvətɪv/
- 含义：偏导数符号，用于表示多元函数对某一变量的导数。在Transformer的训练过程中，涉及梯度下降和反向传播时，会用到偏导数。
∇（Nabla）
- 读音：英音 /'neɪblə/，美音 /'neɪblə/
- **含义****：梯度符号，用于表示多元函数在某一点的梯度。在Transformer中，梯度用于更新模型的参数。

数学符号补充一：

∈（Element of）
- 读音：英音 /ɪn/，美音 /ɪn/
- 含义：表示某个元素属于某个集合。在Transformer中，可能用于描述词向量或隐藏状态属于某个特定的向量空间。
∉（Not an element of）
- 读音：英音 /nɒt ɪn/，美音 /nɑːt ɪn/
- 含义：表示某个元素不属于某个集合。
⊆（Subset）
- 读音：英音 /sʌb'set/，美音 /sʌb'set/（作为符号时，读音可简化为类似“subset”的发音）
- 含义：表示一个集合是另一个集合的子集。在Transformer中，可能用于描述词表或隐藏状态空间的包含关系。
∪（Union）
- 读音：英音 /juːnɪən/，美音 /'juːnjən/
- 含义：表示两个集合的并集。在Transformer中，可能用于合并不同的特征集或注意力权重。
∩（Intersection）
- 读音：英音 /ɪn'tɜːseʃn/，美音 /ɪn'tɜːrseʃn/
- 含义：表示两个集合的交集。在Transformer中，可能用于寻找共同的特征或注意力焦点。
|x|（Absolute Value或Cardinality）
- 读音：英音 /ˈæbsəluːt ˈvæljuː/（绝对值时）或 /kɑːdɪ'nælɪti/（基数时，但较少用此符号表示），美音类似
- 含义：当x为实数时，表示x的绝对值；当x为集合时，表示集合的基数（即元素个数）。在Transformer中，可能用于计算序列长度或注意力权重的绝对值。
‖x‖（Norm）
- 读音：英音 /nɔːm/，美音 /nɔːrm/
- 含义：表示向量x的范数，如L1范数、L2范数等。在Transformer中，可能用于正则化或衡量向量的大小。
⊗（Tensor Product或Outer Product）
- 读音：英音 /'tensə prɒdʌkt/（张量积时）或 /'aʊtə prɒdʌkt/（外积时），美音类似
- 含义：表示两个向量或矩阵的张量积或外积。在Transformer中，可能用于计算注意力矩阵或特征融合。

数学符号补充二：

⊕（Direct Sum）
- 读音：英音 /dɪ'rekt sʌm/，美音 /dɪ'rekt sʌm/（作为符号时，读音可简化为类似“direct sum”的发音）
- 含义：表示两个向量的直和，常用于将两个向量拼接在一起。在Transformer中，可能用于拼接词嵌入向量和位置编码向量。
⊗（Kronecker Product）
- 读音：英音 /'krɒnɪkə prɒdʌkt/，美音 /'kroʊnɪkər prɑːdʌkt/
- 含义：表示两个矩阵的克罗内克积，是一种特殊的矩阵乘法。在Transformer中，可能用于某些特定的矩阵运算或特征融合。
‖·‖₂（L2 Norm）
- 读音：英音 /'dʌbəl vɜːtɪkl l two nɔːm/，美音 /'dʌbəl vɜːrtɪkl l tuː nɔːrm/（L2范数通常读作"L two norm"）
- 含义：表示向量的L2范数，即向量元素平方和的平方根。在Transformer中，可能用于正则化或衡量向量的大小。

常见函数

Sigmoid函数
- 公式：σ(x)=1+e−x1
- 读音：英音 /'sɪɡmɔɪd/，美音 /'sɪɡmɔɪd/
- 含义：Sigmoid函数是一种S型函数，它将任何实数映射到(0,1)区间内。在Transformer中，虽然不如在二分类问题中常见，但可能用于某些特定的激活函数或门控机制中。
- 特点：平滑、易于求导，但可能存在梯度消失问题。
Softmax函数
- 公式：softmax(xi)=∑jexjexi
- 读音：无固定音标，可拆分为"soft"和"max"两部分发音
- 含义：Softmax函数用于将一组实数转换为概率分布，即每个实数被转换为一个介于0和1之间的值，且所有值的和为1。在Transformer中，softmax函数用于计算注意力权重，决定模型在生成输出时应该关注输入序列的哪些部分。
- 特点：输出为概率分布，适用于多分类问题。
ReLU函数
- 公式：ReLU(x)=max(0,x)
- 读音：英音 /'riːluː/，美音 /'riːluː/（或按字母发音为"Rectified Linear Unit"的缩写）
- 含义：ReLU函数是一种分段线性函数，当输入大于0时，输出等于输入；当输入小于或等于0时，输出为0。在Transformer中，ReLU函数常用作激活函数，引入非线性因素。
- 特点：计算简单、高效，但可能存在神经元死亡问题（即某些神经元在训练过程中永远不会被激活）。
GELU函数
- 公式：GELU(x)=x⋅Φ(x)，其中Φ(x)是标准正态分布的累积分布函数。近似公式为GELU(x)≈0.5x(1+tanh(π2(x+0.044715x3)))或GELU(x)≈x⋅σ(1.702x)（其中σ是sigmoid函数）。
- 读音：英音 /'dʒiːluː/，美音 /'dʒiːluː/（或按字母发音为"Gaussian Error Linear Unit"的缩写）
- 含义：GELU函数是一种非线性激活函数，旨在解决传统激活函数（如ReLU）的一些局限性。它结合了ReLU的稀疏性和Sigmoid的平滑性，在负输入时允许小幅“泄漏”（非零输出），从而保留一些负值信息。
- 特点：平滑、连续导数，减少梯度消失问题，提高模型训练稳定性。在Transformer中，GELU函数常用作前馈神经网络的激活函数。

函数补充一：

Tanh函数（双曲正切函数）
- 公式：tanh(x)=ex+e−xex−e−x
- 读音：英音 /tæn'h/，美音 /tæn'h/（或按“hyperbolic tangent”发音）
- 含义：将实数映射到(-1,1)区间内，是Sigmoid函数的变种。在Transformer中，可能用于激活函数或门控机制。
- 特点：平滑、易于求导，输出范围有限，有助于防止梯度爆炸。
LeakyReLU函数
- 公式：LeakyReLU(x)=max(αx,x)，其中α是一个小的正数（如0.01）。
- 读音：英音 /'liːki riːluː/，美音 /'liːki riːluː/
- 含义：是ReLU函数的变种，允许负输入有小幅的“泄漏”输出。
- 特点：解决了ReLU函数的神经元死亡问题，但引入了额外的超参数α。
Swish函数
- 公式：Swish(x)=x⋅σ(βx)，其中σ是Sigmoid函数，β是一个可学习的参数或固定值。
- 读音：英音 /swɪʃ/，美音 /swɪʃ/
- 含义：是一种自门控激活函数，通过Sigmoid函数来控制输入的线性变换。
- 特点：平滑、非单调，有助于提高模型的表达能力。
ELU函数（指数线性单元）
- 公式：ELU(x)={x,α(ex−1),if x>0if x≤0，其中α是一个正数。
- 读音：英音 /'iːluː/，美音 /'iːluː/
- 含义：是ReLU函数的另一种变种，当输入小于0时，输出一个负的指数函数值。
- 特点：平滑、有助于减少梯度消失问题，但计算稍复杂。
Mish函数
- 公式：Mish(x)=x⋅tanh(softplus(x))，其中softplus(x)=ln(1+ex)。
- 读音：无固定音标，可按“mish”发音
- 含义：是一种自正则化非单调神经激活函数，结合了ReLU和Swish的特点。
- 特点：平滑、非单调、自正则化，有助于提高模型的泛化能力。
Log-Softmax函数
- 公式：Log−Softmax(xi)=ln(softmax(xi))，其中softmax函数如前所述。
- 读音：英音 /lɒg 'sɒftmæks/，美音 /lɑːg 'sɒftmæks/
- 含义：是softmax函数的对数变换，常用于计算对数概率或损失函数。
- 特点：将概率值转换为对数概率值，有助于数值稳定性和梯度计算。

函数补充二：

Exponential Linear Unit（ELU）函数
- 公式：ELU(x)={x,α(ex−1),if x>0if x≤0，其中α是一个正数。
- 含义：ELU函数是ReLU函数的变种，当输入小于0时，输出一个负的指数函数值，有助于减少梯度消失问题。
Swish函数
- 公式：Swishβ(x)=x⋅σ(βx)=1+e−βxx，其中σ是Sigmoid函数，β是一个可学习的参数或固定值。当β=1时，称为SiLU（Sigmoid Linear Unit）函数。
- 含义：Swish函数是一种自门控激活函数，通过Sigmoid函数来控制输入的线性变换，有助于提高模型的表达能力。
SwiGLU函数
- 公式：SwiGLU(x)=SiLU(xW+b)⋅(xV+c)，其中SiLU是Sigmoid Linear Unit函数，W、V是权重矩阵，b、c是偏置向量。
- 含义：SwiGLU函数是Swish函数与线性函数的乘积，参数在训练中学习。它因其复杂性而流行，展开公式可见分子中的二次项，帮助模型无需额外层即可学习复杂模式。
Levi-Civita符号（ε）
- 含义：在物理学和数学中，Levi-Civita符号用于简洁地表达叉积等运算。在Transformer的某些高级数学表达中，可能会用到这一符号来简化张量运算的表示。