相信对于神经网络大家都已经不陌生了,这篇文章主要介绍一下神经网络参数优化的时候反向传播算法的原理。
我们使用的神经网络
为了简单起见,我们使用只有三层的神经网络(包括输入层)如下图所示
神经网络中的参数表示
我们用
w
i
j
l
{w_{ij}}^{l}
wijl来表示第
l
−
1
l-1
l−1层的中第
j
j
j个结点到第
l
l
l层中第
i
i
i个结点的偏置
用
b
i
l
{b_{i}}^{l}
bil表示第
l
l
l层中第
i
i
i个结点的偏置
用
a
i
l
{a_{i}}^{l}
ail表示第
l
l
l层中第
i
i
i个结点通过激活函数之后的输出值
用
z
i
l
{z_{i}}^{l}
zil表示第
l
l
l层中第
i
i
i个结点没有经过激活函数时的输出
基于上面的约定,我们可以给出上述神经网络的数学表示
从输入层到隐藏层可以表示为
从隐藏层到输出层可以表示为
当然,这样表示可能有点乱,我们可以将上述两个式子写成喜闻乐见的矩阵形式
z
i
3
{z_{i}}^{3}
zi3同理这里就不写了。
损失函数
我们使用均方误差C作为损失函数,其数学表达式为
c
=
1
2
∗
(
(
t
1
−
a
1
3
)
2
+
(
t
2
−
a
2
3
)
2
)
c = \frac{1}{2}*(({t_{1}}-{a_{1}}^{3})^{2}+({t_{2}}-{a_{2}}^{3})^{2})
c=21∗((t1−a13)2+(t2−a23)2)
其中
t
1
{t_{1}}
t1为输出层中第一个结点的标记值;
t
2
{t_{2}}
t2为输出层中第二个结点的标记值
我们的优化目标就是求出让损失函数的值最小的各个参数的值
神经网络中的参数非常多(包括
w
i
j
l
{w_{ij}}^{l}
wijl和
b
i
l
{b_{i}}^{l}
bil),如果我们使用求导的方式来求最小值的话就很不现实。为了解决这个问题,我们可以使用反向传播算法,这个算法的神奇之处在于可以把优化参数时的求导操作变成求数列的地推式。
容易发现,我们很容易求得误差
c
c
c对于
a
1
3
{a_{1}}^{3}
a13和
a
2
3
{a_{2}}^{3}
a23的导数,这样一来我们便可以根据
a
1
3
{a_{1}}^{3}
a13和
a
2
3
{a_{2}}^{3}
a23的导数来求
a
i
2
{a_{i}}^{2}
ai2的导数,如此传递下去便能完成一轮优化的过程,是不是很神奇呢。下面我们来具体介绍一下反向传播算法的过程。
神经单元误差 δ \delta δ
这一块就是我们的重头戏了。不过在介绍反向传播算法前,我们需要先介绍神经单元误差
δ
i
l
{\delta_{i}}^{l}
δil的概念。
我们定义神经单元误差
δ
i
l
=
∂
c
∂
z
i
l
{\delta_{i}}^{l}=\frac{\partial c}{\partial {z_{i}}^{l}}
δil=∂zil∂c
有了这个误差,我们可以化简之前用链式求导法则得出的结果,比如我们要求
w
i
j
3
{w_{ij}}^{3}
wij3的变化值
Δ
w
i
j
3
\Delta {w_{ij}}^{3}
Δwij3,其中
Δ
w
i
j
3
=
−
η
∗
∂
c
∂
w
i
j
3
\Delta {w_{ij}}^{3}=-\eta*\frac{\partial c}{\partial {w_{ij}}^{3}}
Δwij3=−η∗∂wij3∂c。其求导路径如下图所示
我们根据链式求导法则得到
∂
c
∂
w
i
j
3
=
∂
c
∂
a
2
3
∂
a
2
3
∂
z
2
3
∂
z
2
3
∂
w
23
3
\frac{\partial c}{\partial {w_{ij}}^{3}}=\frac{\partial c}{\partial {a_{2}}^{3}}\frac{\partial {a_{2}}^{3}}{\partial {z_{2}}^{3}}\frac{\partial {z_{2}}^{3}}{\partial {w_{23}}^{3}}
∂wij3∂c=∂a23∂c∂z23∂a23∂w233∂z23
其中
∂
c
∂
a
2
3
\frac{\partial c}{\partial {a_{2}}^{3}}
∂a23∂c可以根据损失函数
c
=
1
2
∗
(
(
t
1
−
a
1
3
)
2
+
(
t
2
−
a
2
3
)
2
)
c = \frac{1}{2}*(({t_{1}}-{a_{1}}^{3})^{2}+({t_{2}}-{a_{2}}^{3})^{2})
c=21∗((t1−a13)2+(t2−a23)2)求出来
∂
c
∂
a
2
3
=
(
a
2
3
−
t
2
)
\frac{\partial c}{\partial {a_{2}}^{3}}=({a_{2}}^{3}-{t_{2}})
∂a23∂c=(a23−t2)
其中
∂
a
2
3
∂
z
2
3
\frac{\partial {a_{2}}^{3}}{\partial {z_{2}}^{3}}
∂z23∂a23可以根据激活函数来求导,比如我们用sigmoid函数来举例,sigmoid函数的函数图像如下所示
其函数表达式为
σ
(
x
)
=
1
1
+
e
−
x
\sigma (x)=\frac{1}{1+e^{-x}}
σ(x)=1+e−x1,对这个函数求导得到其导数为
σ
(
x
)
(
1
−
σ
(
x
)
)
\sigma (x)(1-\sigma (x))
σ(x)(1−σ(x))
那么就有
∂
a
2
3
∂
z
2
3
=
σ
(
z
2
3
)
(
1
−
σ
(
z
2
3
)
)
\frac{\partial {a_{2}}^{3}}{\partial {z_{2}}^{3}}=\sigma ({z_{2}}^{3})(1-\sigma ({z_{2}}^{3}))
∂z23∂a23=σ(z23)(1−σ(z23))
最后,为了求得
∂
z
2
3
∂
w
23
3
\frac{\partial {z_{2}}^{3}}{\partial {w_{23}}^{3}}
∂w233∂z23,我们先来写一下
z
2
3
{z_{2}}^{3}
z23的表达式
z
2
3
=
w
21
3
a
1
2
+
w
22
3
a
2
2
+
w
23
3
a
3
2
+
b
2
3
{z_{2}}^{3}={w_{21}}^{3}{a_{1}}^{2}+{w_{22}}^{3}{a_{2}}^{2}+{w_{23}}^{3}{a_{3}}^{2}+{b_{2}}^{3}
z23=w213a12+w223a22+w233a32+b23
这是一个线性函数,很容易可以得到
∂
z
2
3
∂
w
23
3
=
a
3
2
\frac{\partial {z_{2}}^{3}}{\partial {w_{23}}^{3}}={a_{3}}^{2}
∂w233∂z23=a32
如果我们令
∂
c
∂
w
i
j
3
=
∂
c
∂
z
2
3
∂
z
2
3
∂
w
23
3
\frac{\partial c}{\partial {w_{ij}}^{3}}=\frac{\partial c}{\partial {z_{2}}^{3}}\frac{\partial {z_{2}}^{3}}{\partial {w_{23}}^{3}}
∂wij3∂c=∂z23∂c∂w233∂z23
那么就有
∂
c
∂
w
i
j
3
=
δ
2
3
a
3
2
\frac{\partial c}{\partial {w_{ij}}^{3}}={\delta _{2}}^{3}{a_{3}}^{2}
∂wij3∂c=δ23a32
同理可得
∂
c
∂
b
2
3
=
∂
c
∂
z
2
3
∂
z
2
3
∂
b
2
3
=
δ
2
3
\frac{\partial c}{\partial {b_{2}}^{3}}=\frac{\partial c}{\partial {z_{2}}^{3}}\frac{\partial {z_{2}}^{3}}{\partial {b_{2}}^{3}}={\delta _{2}}^{3}
∂b23∂c=∂z23∂c∂b23∂z23=δ23
有了上面的理论基础,我们就可以继续介绍反向传播算法了。
反向传播算法
下面我们在来讨论一下神经单元误差
δ
\delta
δ的性质,也就是传递性。
我们可以将上一节的求导结果抽象化为任意一个参数的形式
∂
c
∂
w
i
j
l
=
δ
i
l
a
j
l
−
1
\frac{\partial c}{\partial {w_{ij}}^{l}}={\delta _{i}}^{l}{a_{j}}^{l-1}
∂wijl∂c=δilajl−1
∂
c
∂
b
i
l
=
δ
i
l
\frac{\partial c}{\partial {b_{i}}^{l}}={\delta _{i}}^{l}
∂bil∂c=δil 其中
l
=
(
2
,
3
)
l=(2, 3)
l=(2,3)
根据上面的式子,我们可以得到隐藏层中神经元的单元误差
δ
i
2
=
(
δ
1
3
w
1
i
3
+
δ
2
3
w
2
i
3
)
a
′
(
z
i
2
)
(
i
=
1
,
2
,
3
)
{\delta _{i}}^{2}=({\delta _{1}}^{3}{w_{1i}}^{3}+{\delta _{2}}^{3}{w_{2i}}^{3}){a}'({z_{i}}^{2})(i=1,2,3)
δi2=(δ13w1i3+δ23w2i3)a′(zi2)(i=1,2,3),这样子我们便得到了第二层与第三层神经元
δ
\delta
δ之间的关系
其中
δ
i
3
=
∂
c
∂
z
i
3
=
∂
c
∂
a
i
3
∂
a
i
3
∂
z
i
3
{\delta_{i}}^{3}=\frac{\partial c}{\partial {z_{i}}^{3}}=\frac{\partial c}{\partial {a_{i}}^{3}}\frac{\partial {a_{i}}^{3}}{\partial {z_{i}}^{3}}
δi3=∂zi3∂c=∂ai3∂c∂zi3∂ai3,这里面
∂
c
∂
a
i
3
\frac{\partial c}{\partial {a_{i}}^{3}}
∂ai3∂c通过损失函数就可以算出来,因为损失函数为
c
(
a
1
3
,
a
2
3
)
c({a_{1}}^{3},{a_{2}}^{3})
c(a13,a23)
并且
∂
a
i
3
∂
z
i
3
\frac{\partial {a_{i}}^{3}}{\partial {z_{i}}^{3}}
∂zi3∂ai3通过激活函数可以算出来,以sigmoid函数举例
∂
a
i
3
∂
z
i
3
=
σ
(
z
i
3
)
(
1
−
σ
(
z
i
3
)
)
\frac{\partial {a_{i}}^{3}}{\partial {z_{i}}^{3}}=\sigma ({z_{i}}^{3})(1-\sigma ({z_{i}}^{3}))
∂zi3∂ai3=σ(zi3)(1−σ(zi3)),这样一来,我们就可以算出
δ
1
3
{\delta_{1}}^{3}
δ13和
δ
2
3
{\delta_{2}}^{3}
δ23了。
有了这两个值,我们根据递推式
δ
i
2
=
(
δ
1
3
w
1
i
3
+
δ
2
3
w
2
i
3
)
a
′
(
z
i
2
)
(
i
=
1
,
2
,
3
)
{\delta _{i}}^{2}=({\delta _{1}}^{3}{w_{1i}}^{3}+{\delta _{2}}^{3}{w_{2i}}^{3}){a}'({z_{i}}^{2})(i=1,2,3)
δi2=(δ13w1i3+δ23w2i3)a′(zi2)(i=1,2,3)就可以算出
δ
i
2
(
i
=
1
,
2
,
3
)
{\delta_{i}}^{2}(i=1,2,3)
δi2(i=1,2,3)了
同理,有了
δ
i
2
(
i
=
1
,
2
,
3
)
{\delta_{i}}^{2}(i=1,2,3)
δi2(i=1,2,3),我们就可以继续算出
δ
i
1
(
i
=
1
,
2
,
3
,
4
)
{\delta_{i}}^{1}(i=1,2,3,4)
δi1(i=1,2,3,4),再将
δ
i
l
{\delta_{i}}^{l}
δil带入到
∂
c
∂
w
i
j
l
\frac{\partial c}{\partial {w_{ij}}^{l}}
∂wijl∂c和
∂
c
∂
b
i
l
\frac{\partial c}{\partial {b_{i}}^{l}}
∂bil∂c的式子中就可以计算出各个参数的导数值,有了这个导数值,我们乘上学习率
−
η
-\eta
−η就能得到各个参数在这一轮训练中的变化率
Δ
w
i
j
l
\Delta{w_{ij}}^{l}
Δwijl和
Δ
b
i
l
\Delta{b_{i}}^{l}
Δbil。
于是,在这一轮训练中我们可以更新我们的参数为
w
i
j
l
=
w
i
j
l
+
Δ
w
i
j
l
{w_{ij}}^{l}={w_{ij}}^{l}+\Delta{w_{ij}}^{l}
wijl=wijl+Δwijl和
b
i
l
=
b
i
l
+
Δ
b
i
l
{b_{i}}^{l}={b_{i}}^{l}+\Delta{b_{i}}^{l}
bil=bil+Δbil
在理想状态下,经过很多很多次优化后,我们的模型中的参数最终收敛了,我们便得到了一个可用的神经网络,是不是很简单呢,哈哈哈。
总结
数学真神奇。