大模型学习笔记——学习前的基础准备:论文中常见的数学符号与函数回顾

背景:

最近在学习大模型相关的内容,绕不开一个概概念:Transformer。

而Transformer的核心,源自2017年的一篇论文《Attention is all you need》

在论文阅读的过程中,遇到很多数学符号,不知道怎么读,也不记得代表什么~~~

在Transformer模型中,数学符号和函数是理解其工作原理的关键。以下是对常见数学符号的介绍,包括它们的读音、含义,以及对sigmoid、softmax、ReLU、GELU等常见函数的详细解释:

常见数学符号

  1. Σ(Sigma)

    • 读音:英音 /'sɪɡmə/,美音 /'sɪɡmə/
    • 含义:求和符号,用于表示对一系列数值进行求和。在Transformer中,可能用于计算注意力权重或损失函数等。
  2. π(Pi)

    • 读音:英音 /paɪ/,美音 /paɪ/
    • 含义:圆周率,但在Transformer的数学表达中不常见。在更广泛的数学和物理领域中,它表示圆的周长与直径之比。
  3. e

    • 读音:英音 /iː/,美音 /iː/
    • 含义:自然对数的底数,约等于2.71828。在Transformer中,可能出现在指数函数或softmax函数等中。
  4. ∂(Partial Derivative)

    • 读音:英音 /'pɑːʃl dɪ'rɪvətɪv/,美音 /'pɑrʃl dɪ'rɪvətɪv/
    • 含义:偏导数符号,用于表示多元函数对某一变量的导数。在Transformer的训练过程中,涉及梯度下降和反向传播时,会用到偏导数。
  5. ∇(Nabla)

    • 读音:英音 /'neɪblə/,美音 /'neɪblə/
    • **含义****:梯度符号,用于表示多元函数在某一点的梯度。在Transformer中,梯度用于更新模型的参数。

数学符号补充一:

  1. ∈(Element of)
    • 读音:英音 /ɪn/,美音 /ɪn/
    • 含义:表示某个元素属于某个集合。在Transformer中,可能用于描述词向量或隐藏状态属于某个特定的向量空间。
  2. ∉(Not an element of)
    • 读音:英音 /nɒt ɪn/,美音 /nɑːt ɪn/
    • 含义:表示某个元素不属于某个集合。
  3. ⊆(Subset)
    • 读音:英音 /sʌb'set/,美音 /sʌb'set/(作为符号时,读音可简化为类似“subset”的发音)
    • 含义:表示一个集合是另一个集合的子集。在Transformer中,可能用于描述词表或隐藏状态空间的包含关系。
  4. ∪(Union)
    • 读音:英音 /juːnɪən/,美音 /'juːnjən/
    • 含义:表示两个集合的并集。在Transformer中,可能用于合并不同的特征集或注意力权重。
  5. ∩(Intersection)
    • 读音:英音 /ɪn'tɜːseʃn/,美音 /ɪn'tɜːrseʃn/
    • 含义:表示两个集合的交集。在Transformer中,可能用于寻找共同的特征或注意力焦点。
  6. |x|(Absolute Value或Cardinality)
    • 读音:英音 /ˈæbsəluːt ˈvæljuː/(绝对值时)或 /kɑːdɪ'nælɪti/(基数时,但较少用此符号表示),美音类似
    • 含义:当x为实数时,表示x的绝对值;当x为集合时,表示集合的基数(即元素个数)。在Transformer中,可能用于计算序列长度或注意力权重的绝对值。
  7. ‖x‖(Norm)
    • 读音:英音 /nɔːm/,美音 /nɔːrm/
    • 含义:表示向量x的范数,如L1范数、L2范数等。在Transformer中,可能用于正则化或衡量向量的大小。
  8. ⊗(Tensor Product或Outer Product)
    • 读音:英音 /'tensə prɒdʌkt/(张量积时)或 /'aʊtə prɒdʌkt/(外积时),美音类似
    • 含义:表示两个向量或矩阵的张量积或外积。在Transformer中,可能用于计算注意力矩阵或特征融合。

数学符号补充二:

  1. ⊕(Direct Sum)

    • 读音:英音 /dɪ'rekt sʌm/,美音 /dɪ'rekt sʌm/(作为符号时,读音可简化为类似“direct sum”的发音)
    • 含义:表示两个向量的直和,常用于将两个向量拼接在一起。在Transformer中,可能用于拼接词嵌入向量和位置编码向量。
  2. ⊗(Kronecker Product)

    • 读音:英音 /'krɒnɪkə prɒdʌkt/,美音 /'kroʊnɪkər prɑːdʌkt/
    • 含义:表示两个矩阵的克罗内克积,是一种特殊的矩阵乘法。在Transformer中,可能用于某些特定的矩阵运算或特征融合。
  3. ‖·‖₂(L2 Norm)

    • 读音:英音 /'dʌbəl vɜːtɪkl l two nɔːm/,美音 /'dʌbəl vɜːrtɪkl l tuː nɔːrm/(L2范数通常读作"L two norm")
    • 含义:表示向量的L2范数,即向量元素平方和的平方根。在Transformer中,可能用于正则化或衡量向量的大小。

常见函数

  1. Sigmoid函数

    • 公式:σ(x)=1+e−x1​
    • 读音:英音 /'sɪɡmɔɪd/,美音 /'sɪɡmɔɪd/
    • 含义:Sigmoid函数是一种S型函数,它将任何实数映射到(0,1)区间内。在Transformer中,虽然不如在二分类问题中常见,但可能用于某些特定的激活函数或门控机制中。
    • 特点:平滑、易于求导,但可能存在梯度消失问题。
  2. Softmax函数

    • 公式:softmax(xi​)=∑j​exj​exi​​
    • 读音:无固定音标,可拆分为"soft"和"max"两部分发音
    • 含义:Softmax函数用于将一组实数转换为概率分布,即每个实数被转换为一个介于0和1之间的值,且所有值的和为1。在Transformer中,softmax函数用于计算注意力权重,决定模型在生成输出时应该关注输入序列的哪些部分。
    • 特点:输出为概率分布,适用于多分类问题。
  3. ReLU函数

    • 公式:ReLU(x)=max(0,x)
    • 读音:英音 /'riːluː/,美音 /'riːluː/(或按字母发音为"Rectified Linear Unit"的缩写)
    • 含义:ReLU函数是一种分段线性函数,当输入大于0时,输出等于输入;当输入小于或等于0时,输出为0。在Transformer中,ReLU函数常用作激活函数,引入非线性因素。
    • 特点:计算简单、高效,但可能存在神经元死亡问题(即某些神经元在训练过程中永远不会被激活)。
  4. GELU函数

    • 公式:GELU(x)=x⋅Φ(x),其中Φ(x)是标准正态分布的累积分布函数。近似公式为GELU(x)≈0.5x(1+tanh(π2​​(x+0.044715x3)))或GELU(x)≈x⋅σ(1.702x)(其中σ是sigmoid函数)。
    • 读音:英音 /'dʒiːluː/,美音 /'dʒiːluː/(或按字母发音为"Gaussian Error Linear Unit"的缩写)
    • 含义:GELU函数是一种非线性激活函数,旨在解决传统激活函数(如ReLU)的一些局限性。它结合了ReLU的稀疏性和Sigmoid的平滑性,在负输入时允许小幅“泄漏”(非零输出),从而保留一些负值信息。
    • 特点:平滑、连续导数,减少梯度消失问题,提高模型训练稳定性。在Transformer中,GELU函数常用作前馈神经网络的激活函数。

函数补充一:

  1. Tanh函数(双曲正切函数)
    • 公式:tanh(x)=ex+e−xex−e−x​
    • 读音:英音 /tæn'h/,美音 /tæn'h/(或按“hyperbolic tangent”发音)
    • 含义:将实数映射到(-1,1)区间内,是Sigmoid函数的变种。在Transformer中,可能用于激活函数或门控机制。
    • 特点:平滑、易于求导,输出范围有限,有助于防止梯度爆炸。
  2. LeakyReLU函数
    • 公式:LeakyReLU(x)=max(αx,x),其中α是一个小的正数(如0.01)。
    • 读音:英音 /'liːki riːluː/,美音 /'liːki riːluː/
    • 含义:是ReLU函数的变种,允许负输入有小幅的“泄漏”输出。
    • 特点:解决了ReLU函数的神经元死亡问题,但引入了额外的超参数α。
  3. Swish函数
    • 公式:Swish(x)=x⋅σ(βx),其中σ是Sigmoid函数,β是一个可学习的参数或固定值。
    • 读音:英音 /swɪʃ/,美音 /swɪʃ/
    • 含义:是一种自门控激活函数,通过Sigmoid函数来控制输入的线性变换。
    • 特点:平滑、非单调,有助于提高模型的表达能力。
  4. ELU函数(指数线性单元)
    • 公式:ELU(x)={x,α(ex−1),​if x>0if x≤0​,其中α是一个正数。
    • 读音:英音 /'iːluː/,美音 /'iːluː/
    • 含义:是ReLU函数的另一种变种,当输入小于0时,输出一个负的指数函数值。
    • 特点:平滑、有助于减少梯度消失问题,但计算稍复杂。
  5. Mish函数
    • 公式:Mish(x)=x⋅tanh(softplus(x)),其中softplus(x)=ln(1+ex)。
    • 读音:无固定音标,可按“mish”发音
    • 含义:是一种自正则化非单调神经激活函数,结合了ReLU和Swish的特点。
    • 特点:平滑、非单调、自正则化,有助于提高模型的泛化能力。
  6. Log-Softmax函数
    • 公式:Log−Softmax(xi​)=ln(softmax(xi​)),其中softmax函数如前所述。
    • 读音:英音 /lɒg 'sɒftmæks/,美音 /lɑːg 'sɒftmæks/
    • 含义:是softmax函数的对数变换,常用于计算对数概率或损失函数。
    • 特点:将概率值转换为对数概率值,有助于数值稳定性和梯度计算。

函数补充二:

  1. Exponential Linear Unit(ELU)函数

    • 公式:ELU(x)={x,α(ex−1),​if x>0if x≤0​,其中α是一个正数。
    • 含义:ELU函数是ReLU函数的变种,当输入小于0时,输出一个负的指数函数值,有助于减少梯度消失问题。
  2. Swish函数

    • 公式:Swishβ​(x)=x⋅σ(βx)=1+e−βxx​,其中σ是Sigmoid函数,β是一个可学习的参数或固定值。当β=1时,称为SiLU(Sigmoid Linear Unit)函数。
    • 含义:Swish函数是一种自门控激活函数,通过Sigmoid函数来控制输入的线性变换,有助于提高模型的表达能力。
  3. SwiGLU函数

    • 公式:SwiGLU(x)=SiLU(xW+b)⋅(xV+c),其中SiLU是Sigmoid Linear Unit函数,W、V是权重矩阵,b、c是偏置向量。
    • 含义:SwiGLU函数是Swish函数与线性函数的乘积,参数在训练中学习。它因其复杂性而流行,展开公式可见分子中的二次项,帮助模型无需额外层即可学习复杂模式。
  4. Levi-Civita符号(ε)

    • 含义:在物理学和数学中,Levi-Civita符号用于简洁地表达叉积等运算。在Transformer的某些高级数学表达中,可能会用到这一符号来简化张量运算的表示。

以上,仅作为学习资料记录,供学习过程中翻阅!

【电力系统】单机无穷大电力系统短路故障暂态稳定Simulink仿真(带说明文档)内容概要:本文档围绕“单机无穷大电力系统短路故障暂态稳定Simulink仿真”展开,提供了完整的仿真模型说明文档,重点研究电力系统在发生短路故障后的暂态稳定性问题。通过Simulink搭建单机无穷大系统模型,模拟不同类型的短路故障(如三相短路),分析系统在故障期间及切除后的动态响应,包括发电机转子角度、转速、电压和功率等关键参数的变化,进而评估系统的暂态稳定能力。该仿真有助于理解电力系统稳定性机理,掌握暂态过程分析方法。; 适合人群:电气工程及相关专业的本科生、研究生,以及从事电力系统分析、运行控制工作的科研人员和工程师。; 使用场景及目标:①学习电力系统暂态稳定的基本概念分析方法;②掌握利用Simulink进行电力系统建模仿真的技能;③研究短路故障对系统稳定性的影响及提高稳定性的措施(如故障清除时间优化);④辅助课程设计、毕业设计或科研项目中的系统仿真验证。; 阅读建议:建议结合电力系统稳定性理论知识进行学习,先理解仿真模型各模块的功能参数设置,再运行仿真并仔细分析输出结果,尝试改变故障类型或系统参数以观察其对稳定性的影响,从而深化对暂态稳定问题的理解。
本研究聚焦于运用MATLAB平台,将支持向量机(SVM)应用于数据预测任务,并引入粒子群优化(PSO)算法对模型的关键参数进行自动调优。该研究属于机器学习领域的典型实践,其核心在于利用SVM构建分类模型,同时借助PSO的全局搜索能力,高效确定SVM的最优超参数配置,从而显著增强模型的整体预测效能。 支持向量机作为一种经典的监督学习方法,其基本原理是通过在高维特征空间中构造一个具有最大间隔的决策边界,以实现对样本数据的分类或回归分析。该算法擅长处理小规模样本集、非线性关系以及高维度特征识别问题,其有效性源于通过核函数将原始数据映射至更高维的空间,使得原本复杂的分类问题变得线性可分。 粒子群优化算法是一种模拟鸟群社会行为的群体智能优化技术。在该算法框架下,每个潜在解被视作一个“粒子”,粒子群在解空间中协同搜索,通过不断迭代更新自身速度位置,并参考个体历史最优解和群体全局最优解的信息,逐步逼近问题的最优解。在本应用中,PSO被专门用于搜寻SVM中影响模型性能的两个关键参数——正则化参数C函数参数γ的最优组合。 项目所提供的实现代码涵盖了从数据加载、预处理(如标准化处理)、基础SVM模型构建到PSO优化流程的完整步骤。优化过程会针对不同的核函数(例如线性核、多项式核及径向基函数核等)进行参数寻优,并系统评估优化后模型性能的差异。性能对比通常基于准确率、精确率、召回率及F1分数等多项分类指标展开,从而定量验证PSO算法在提升SVM模型分类能力方面的实际效果。 本研究通过一个具体的MATLAB实现案例,旨在演示如何将全局优化算法机器学习模型相结合,以解决模型参数选择这一关键问题。通过此实践,研究者不仅能够深入理解SVM的工作原理,还能掌握利用智能优化技术提升模型泛化性能的有效方法,这对于机器学习在实际问题中的应用具有重要的参考价值。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Jack_abu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值