神经网络的数列和递推关系式基础
引言
神经网络,这一模拟生物神经系统工作方式的计算模型,其核心在于通过一系列的数学运算实现数据的处理和预测。在这些运算中,数列和递推关系式扮演着至关重要的角色。本Day将通过具体的例子和公式,简要介绍神经网络中数列和递推关系式的应用。
数列的基本概念
- 数列:即按一定顺序排列的一组数,其每一项都与前一项或前几项存在某种确定的关系。在神经网络中,这种关系往往通过递推关系式来体现。
例子:
考虑一个简单的等差数列:
1
,
3
,
5
,
7
,
.
.
.
1, 3, 5, 7,...
1,3,5,7,...,其中首项
a
1
=
1
a₁=1
a1=1,公差
d
=
2
d=2
d=2。其通项公式为:
-
a
n
=
a
1
+
(
n
−
1
)
d
aₙ = a₁ + (n - 1)d
an=a1+(n−1)d
- 在神经网络中,这样的数列可以用于表示输入数据的序列,或者神经单元输出的序列。
递推关系式
递推关系式是描述数列中相邻项之间关系的一种数学表达式。在神经网络中,递推关系式不仅用于描述数列的生成过程,还用于描述神经单元之间的连接和计算过程。
例子:
考虑一个简单的神经单元,其加权输入z可以通过以下递推关系式计算:
z = w 1 x 1 + w 2 x 2 + . . . + w n x n + b z = w₁x₁ + w₂x₂ + ... + wₙxₙ + b z=w1x1+w2x2+...+wnxn+b
- 其中, x 1 , x 2 , . . . , x n x₁, x₂,..., xₙ x1,x2,...,xn是输入数据, w 1 , w 2 , . . . , w n w₁, w₂,..., wₙ w1,w2,...,wn是对应的权重, b b b是偏置项。这个递推关系式描述了如何根据输入数据和权重计算神经单元的加权输入。
进一步地,神经单元的输出y可以通过激活函数σ(z)计算得到:
y = σ ( z ) y = σ(z) y=σ(z)
例如,如果使用Sigmoid激活函数,则:
σ ( z ) = 1 1 + e − z \sigma(z) = \frac{1}{1 + e^{-z}} σ(z)=1+e−z1
- 这个递推关系式描述了如何根据加权输入计算神经单元的输出。
联立递推关系式与神经网络
在复杂的神经网络中,往往存在多个递推关系式,它们相互关联、共同作用。这种由多个递推关系式组成的系统称为联立递推关系式。在神经网络中,联立递推关系式用于描述不同层之间神经单元的连接和计算过程。
例子:
考虑一个简单的前馈神经网络,由输入层、隐藏层和输出层组成。假设输入层有3个神经单元,隐藏层有2个神经单元,输出层有1个神经单元。那么,这个神经网络的计算过程可以通过以下联立递推关系式来描述:
-
隐藏层神经单元的加权输入:
z 1 = w 11 x 1 + w 12 x 2 + w 13 x 3 + b 1 z₁ = w₁₁x₁ + w₁₂x₂ + w₁₃x₃ + b₁ z1=w11x1+w12x2+w13x3+b1
z 2 = w 21 x 1 + w 22 x 2 + w 23 x 3 + b 2 z₂ = w₂₁x₁ + w₂₂x₂ + w₂₃x₃ + b₂ z2=w21x1+w22x2+w23x3+b2 -
隐藏层神经单元的输出:
y 1 = σ ( z 1 ) y₁ = σ(z₁) y1=σ(z1)
y 2 = σ ( z 2 ) y₂ = σ(z₂) y2=σ(z2) -
输出层神经单元的加权输入:
z 3 = w 31 y 1 + w 32 y 2 + b 3 z₃ = w₃₁y₁ + w₃₂y₂ + b₃ z3=w31y1+w32y2+b3 -
输出层神经单元的输出:
y 3 = σ ( z 3 ) y₃ = σ(z₃) y3=σ(z3)
这个联立递推关系式描述了神经网络中不同层之间神经单元的连接和计算过程。通过不断地递推计算,神经网络可以实现对复杂数据的处理和预测。
图例说明
以下是一个简单的前馈神经网络的图示,用于辅助理解上述联立递推关系式:
输入层 (x₁, x₂, x₃)
|
v
隐藏层 (y₁, y₂) <--- 加权输入 (z₁, z₂)
|
v
输出层 (y₃) <--- 加权输入 (z₃)
在这个图示中,输入层有3个神经单元,隐藏层有2个神经单元,输出层有1个神经单元。箭头表示数据的流向和计算过程。通过不断地递推计算,神经网络可以实现对输入数据的处理和预测。
在神经网络中,各类公式和符号扮演着至关重要的角色。
以下是一些常用符号、它们的意义以及英译:
符号 意义 英译 w i j w_{ij} wij 从神经元i到神经元j的连接强度或权值 w e i g h t i j weight_{ij} weightij θ θ θ 或 b b b 神经元j的激活阈值或偏置 t h e t a theta theta 或 b i a s bias bias ∑ 求和符号 S i g m a Sigma Sigma δ δ δ 误差信号 d e l t a delta delta E E E或 L L L 损失函数 E r r o r Error Error 或 L o s s Loss Loss ∂ E / ∂ w i j ∂E/∂wᵢⱼ ∂E/∂wij 损失函数对权值 w i j wᵢⱼ wij的偏导数 partial E E E over partial w i j w_{ij} wij λ λ λ 正则化系数,用于防止过拟合 l a m b d a lambda lambda η η η 学习率 e t a eta eta α α α 动量项学习率 a l p h a alpha alpha ε ε ε 一个很小的正数,用于防止除零错误 e p s i l o n epsilon epsilon
附希腊字母表
大写希腊字母 | 小写希腊字母 | 英文名称 | 读音 | 数学中的常见应用 |
---|---|---|---|---|
Α | α | Alpha | /ˈælfə/ | 表示角度、系数、阿尔法粒子(物理学)等 |
Β | β | Beta | /ˈbeɪtə/ | 通常用于表示角度、系数、贝塔衰变(物理学)等 |
Γ | γ | Gamma | /ˈɡæmə/ | 常用于表示角度、系数、伽玛射线(物理学)、伽玛函数等 |
Δ | δ | Delta | /ˈdɛltə/ | 常用于表示差异、变化量、一元二次方程的判别式等 |
Ε | ε | Epsilon | /ˈɛpsɪlən/ | 通常用于表示一个很小的正数、介电常数、误差项等 |
Ζ | ζ | Zeta | /ˈziːtə/ | 可代表黎曼 zeta 函数、ζ-变换(数学)等 |
Η | η | Eta | /ˈeɪtə/ 或 /ˈiːtə/ | 在工程学中表示效率、η-变换(数学)等 |
Θ | θ | Theta | /ˈθiːtə/ 或 /ˈθeɪtə/ | 常用于表示角度、温度、θ-函数(数学)等 |
Ι | ι | Iota | /aɪˈoʊtə/ | 数学中表示单位复数、ι-函数(特定领域)等 |
Κ | κ | Kappa | /ˈkæpə/ | 在统计学中表示某种测度的一致性、物理学中表示介质常数、曲率等 |
Λ | λ | Lambda | /ˈlæmdə/ | 常用于表示特征值、波长、拉普拉斯算子、Λ-函数(数学)等 |
Μ | μ | Mu | /mjuː/ | 通常用于表示平均值、系数、磁导率、μ-算子(数学)等 |
Ν | ν | Nu | /nuː/ | 在物理学中表示波的相速度、ν-函数(特定领域)等 |
Ξ | ξ | Xi | /ksaɪ/ 或 /ˈzaɪ/ | 在统计学中表示变差、ξ-函数(数学)等 |
Ο | ο | Omicron | /ˈoʊmɪkrɒn/ 或简化作 Omicron(无标准发音) | 在数学分析中可表示高阶无穷小函数、ο-符号(表示渐近关系)等 |
∏ | π | Pi | /paɪ/ | 常用于表示圆周率、概率统计中的正态分布、π-系统(数学逻辑)等 |
Ρ | ρ | Rho | /roʊ/ | 常用于表示密度、相关系数、极坐标系中的半径等 |
∑ | σ | Sigma | /ˈsɪɡmə/ | 常用于表示标准差、总和、求和符号、σ-代数(数学)等 |
Τ | τ | Tau | /taʊ/ | 在几何学中表示圆周率的两倍、数论中表示拉马努金τ函数、τ-拓扑(数学)等 |
Υ | υ | Upsilon | /ˈʊpsɪlɒn/ | 在数学中表示一个常数、υ-变换(数学)等 |
Φ | φ | Phi | /faɪ/ 或 /fiː/ | 代表黄金分割比例、表示磁通量、正态分布、φ-函数(数学)等 |
Χ | χ | Chi | /kaɪ/ 或 /kiː/ | 在统计学回归分析中表示卡方分布、χ-平方检验等 |
Ψ | ψ | Psi | /psaɪ/ 或 /ˈpsaɪ/ | 表示在内蕴坐标系下曲线的切线与x轴的夹角、ψ-函数(数学)等 |
Ω | ω | Omega | /oʊˈmiːɡə/ 或 /oʊˈmeɪɡə/ | 通常用于表示角速度、角频率、自然数集合的基数、Ω-极限点(数学)等 |