机器学习入门系列四（关键词：BP神经网络）

最新推荐文章于 2018-12-28 21:40:00 发布

原创最新推荐文章于 2018-12-28 21:40:00 发布 · 2.4k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #神经网络

机器学习专栏收录该内容

6 篇文章

订阅专栏

本文深入探讨了BP神经网络的算法原理，通过实例解释了前向传播和反向传播过程，以及如何使用梯度下降法更新权重。重点突出神经网络在分类问题中的应用，包括激励函数的选择、误差计算和权值更新公式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里我就不介绍神经网络的起源发展和基本概念了，让我们专注于BP神经网络的算法。为了方便说明，我们做出如下如下神经网路用于解决分类问题，其中输入层有3个单元(含1个偏置项)，第1个隐藏层有3个单元(含1个偏置项)，第2个隐藏层有3个单元(含1个偏置项)，输出层有2个单元。

符号	意义
$x$	样本输入向量
$x_i$	样本输入向量第 $i$ 个分量
$y$	样本输出向量
$z_j^{(k)}$	第 $k$ 层第 $j$ 个单元的值（用激励函数之前）
$a_j^{(k)}$	第 $k$ 层第 $j$ 个单元的值（用激励函数之后）
$\theta_{i,j}^{(k)}$	第 $k$ 层的第 $j$ 个单元与第 $k+1$ 层的第 $i$ 个单元之间的权值，其中 $\theta_{i0}^{(k)}$ 的值恒为1
$\Theta^{(k)}$	由 $\theta_{ij}^{(k)}$ 组成的矩阵
$\delta_j^{(k)}$	第 $k$ 层第 $j$ 个单元的误差

这里写图片描述

一、前向传播

方便起见，针对一个训练样本用于训练网络，首先进行前向传播。第一层（输入层）如下，其中矩阵中的1为偏置项。

a (1) = [1 x 1 x 2] T (1)

$a^{(1)} = \begin{bmatrix}1&x_1&x_2\end{bmatrix}^\mathrm{T}\tag{1}$ 第二层（隐藏层1）经过权值的作用得到如下。

z (2) = Θ (1) a (1) (2)

$z^{(2)}=\Theta^{(1)}a^{(1)}\tag{2}$ 其中

Θ(1) $\Theta^{(1)}$ 的维度是

2×3 $2\times3$ ，

a(1) $a^{(1)}$ 的维度是

3×1 $3\times1$ ，因此

z(2) $z^{(2)}$ 的维度是

2×1 $2\times1$ ，不包括第2层的偏置项。具体来讲，

z (2) 1 = θ (1) 10 \times a (1) 0 + θ (1) 11 \times a (1) 1 + θ (1) 12 \times a (1) 2 = θ (1) 10 \times 1 + θ (1) 11 \times x 1 + θ (1) 12 \times x 2 (2.1)

$\begin{align} z^{(2)}_1&=\theta_{10}^{(1)}\times a_0^{(1)}+\theta_{11}^{(1)}\times a_1^{(1)}+\theta_{12}^{(1)}\times a_2^{(1)}\\&= \theta_{10}^{(1)}\times 1+\theta_{11}^{(1)}\times x_1+\theta_{12}^{(1)}\times x_2\end{align}\tag{2.1}$

z (2) 2 = θ (1) 20 \times a (1) 0 + θ (1) 21 \times a (1) 1 + θ (1) 22 \times a (1) 2 (2.2)

$z^{(2)}_2=\theta_{20}^{(1)}\times a_0^{(1)}+\theta_{21}^{(1)}\times a_1^{(1)}+\theta_{22}^{(1)}\times a_2^{(1)}\tag{2.2}$ 接下来我们需要用一个激励函数使得神经网络的计算非线性化，在这里我们用sigmoid函数作用如下。

a (2) = g (z (2)) (3)

$a^{(2)}=g(z^{(2)})\tag{3}$ 具体来讲，

a (2) 1 = 1 1 + e - z ( 2 ) 1 (3.1)

$a_1^{(2)} = \frac{1}{1+e^{-z_1^{(2)}}}\tag{3.1}$

a (2) 2 = 1 1 + e - z ( 2 ) 2 (3.2)

$a_2^{(2)} = \frac{1}{1+e^{-z_2^{(2)}}}\tag{3.2}$ 为了与输入层的

a(1) $a^{(1)}$ 保持一致，在这里我们对

a(2) $a^{(2)}$ 增加一个偏置项，即

a (2) = [1 a (2) 1 a (2) 2] T (4)

$a^{(2)} = \begin{bmatrix}1&a_1^{(2)}&a_2^{(2)}\end{bmatrix}^\mathrm{T}\tag{4}$ 第二层的计算完毕，针对第三层的计算（隐藏层2），我们把第二层视为输入层，同理可得如下。

z (3) = Θ (2) a (2) (5)

$z^{(3)}=\Theta^{(2)}a^{(2)}\tag{5}$ 其中

Θ(2) $\Theta^{(2)}$ 的维度是

2×3 $2\times3$ ，

a(2) $a^{(2)}$ 的维度是

3×1 $3\times1$ ，因此

z(3) $z^{(3)}$ 的维度是

2×1 $2\times1$ ，不包括第3层的偏置项。接下来用sigmoid函数作用

a (3) = g (z (3)) (6)

$a^{(3)}=g(z^{(3)})\tag{6}$ 对

a(3) $a^{(3)}$ 增加一个偏置项，即

a (3) = [1 a (3) 1 a (3) 2] T (7)

$a^{(3)} = \begin{bmatrix}1&a_1^{(3)}&a_2^{(3)}\end{bmatrix}^\mathrm{T}\tag{7}$ 第三层的计算完毕，针对第四层的计算（输出层），我们把第三层视为输入层，同理可得如下。

z (4) = Θ (3) a (3) (8)

$z^{(4)}=\Theta^{(3)}a^{(3)}\tag{8}$ 其中

Θ(3) $\Theta^{(3)}$ 的维度是

2×3 $2\times3$ ，

a(3) $a^{(3)}$ 的维度是

3×1 $3\times1$ ，因此

z(4) $z^{(4)}$ 的维度是

2×1 $2\times1$ 。接下来用sigmoid函数作用

a (4) = g (z (4)) (9)

$a^{(4)}=g(z^{(4)})\tag{9}$ 由于第四层是输出层因此不再增加一个偏置项。至此神经网络的前向传播已经结束。

二、反向传播

下面我们要进行反向传播，并用梯度下降法更新 $\theta$ 的权值。对于分类问题，我们知道代价函数为

J (θ) = - 1 m \sum i = 1 m [y (i) l o g (h θ (x (i))) + (1 - y (i)) l o g (1 - h θ (x (i)))] + λ 2 m \sum j = 1 n θ 2 j (10)

$J(\theta) =-\frac1m\sum_{i=1}^m \left[y^{(i)}log(h_\theta(x^{(i)}))+(1-y^{(i)})log(1-h_\theta(x^{(i)}))\right]+\frac\lambda{2m}\sum_{j=1}^n\theta_j^2\tag{10}$ 由于神经网络的输出层为向量，不是一个像逻辑回归是一个数，因此我们重新定义输出量

y $y$ 为向量，输出量的维度与所分类别数一致，每一个维度代表一种类别。例如我们要分四类，那么对应神经网络的理想输出如下，且当训练集中

y=3 $y=3$ 时，经过调整变为

y3 $y_3$ ，为方便说明，我们令

y=y3 $y=y_3$ 。

y 1 = ⎡ ⎣ ⎢ ⎢ ⎢ 1000 ⎤ ⎦ ⎥ ⎥ ⎥ ， y 2 = ⎡ ⎣ ⎢ ⎢ ⎢ 0100 ⎤ ⎦ ⎥ ⎥ ⎥ ， y 3 = ⎡ ⎣ ⎢ ⎢ ⎢ 0010 ⎤ ⎦ ⎥ ⎥ ⎥ ， y 4 = ⎡ ⎣ ⎢ ⎢ ⎢ 0001 ⎤ ⎦ ⎥ ⎥ ⎥

$y_1=\begin{bmatrix}1\\0\\0\\0\end{bmatrix}，y_2=\begin{bmatrix}0\\1\\0\\0\end{bmatrix}，y_3=\begin{bmatrix}0\\0\\1\\0\end{bmatrix}，y_4=\begin{bmatrix}0\\0\\0\\1\end{bmatrix}$ 这样，神经网络的代价函数就更改为

J (θ) = - 1 m [\sum i = 1 m \sum k = 1 K y (i) k l o g (h θ (x (i)) k) + (1 - y (i) k) l o g (1 - h θ (x (i)) k)] + λ 2 m \sum l = 1 L - 1 \sum i = 1 s l \sum j = 1 s l + 1 (θ (l) j, i) 2 (11)

$J(\theta) =-\frac1m \left[\sum_{i=1}^m\sum_{k=1}^Ky_k^{(i)}log(h_\theta(x^{(i)})_k)+(1-y_k^{(i)})log(1-h_\theta(x^{(i)})_k)\right] +\frac\lambda{2m}\sum_{l=1}^{L-1}\sum_{i=1}^{s_l}\sum_{j=1}^{s_{l+1}}(\theta_{j,i}^{(l)})^2\tag{11}$ 其中L为神经网络的总层数，

sl $s_l$ 为第

l $l$ 层的单元数（不包括偏置项），K为输出层的单元数，

hθ(x) $h_\theta(x)$ 与

a(l) $a^{(l)}$ 一致。
由于梯度下降法更新

θ $\theta$ 的权值需要计算

∂∂θ(l)i,jJ(θ) $\frac{\partial}{\partial\theta_{i,j}^{(l)}}J(\theta)$ ，而对于这种形式的神经网络直接计算偏导数有些困难，因此我们用间接的方式求得偏导数。数学证明比较麻烦，在这里只提供算法。
既然是反向传播，当然就应该从输出层向输入层进行计算。首先我们要计算每一层的“误差”

δ(k)j $\delta_j^{(k)}$ 。对于输出层，“误差”为神经网络的输出结果与给定输出结果之差，即

δ (4) = a (4) - y (12)

$\delta^{(4)}=a^{(4)}-y\tag{12}$ 上式为向量形式，其中

δ(4) $\delta^{(4)}$ 为

2×1 $2\times1$ 向量。
接下来求第三层的“误差”，即

δ (3) = (Θ (3)) T δ (4) . * g' (z (3)) (13)

$\delta^{(3)}=(\Theta^{(3)})^\mathrm{T}\delta^{(4)}.\ast g'(z^{(3)})\tag{13}$ 其中

δ(3) $\delta^{(3)}$ 为

3×1 $3\times1$ 向量，

g(⋅) $g(\cdot)$ 为sigmoid函数，

Θ(3) $\Theta^{(3)}$ 为

2×3 $2\times3$ 向量，

z(3) $z^{(3)}$ 为

3×1 $3\times1$ 向量，

A.∗B $A.\ast B$ 指的是

A $A$ 、

B $B$ 向量对应的数相乘，例如

[123] . * [456] = [41018]

$\begin{bmatrix}1&2&3\end{bmatrix}.\ast\begin{bmatrix}4&5&6\end{bmatrix}=\begin{bmatrix}4&10&18\end{bmatrix}$ 经过简单的数学推导我们可以得知

g' (z (3)) = a (3) . * (1 - a (3)) (14)

$g'(z^{(3)})=a^{(3)}.\ast(1-a^{(3)})\tag{14}$ 因此

δ (3) = (Θ (3)) T δ (4) . * a (3) . * (1 - a (3)) (15)

$\delta^{(3)}=(\Theta^{(3)})^\mathrm{T}\delta^{(4)}.\ast a^{(3)}.\ast(1-a^{(3)})\tag{15}$ 由于每一层的第一个单元为偏置项，因此我们默认它的值恒为1，不进行修改。所以对于

δ(k) $\delta^{(k)}$ 我们去掉第一项偏置项，得到

2×1 $2\times1$ 向量。
接下来求第二层的“误差”，即

δ (2) = (Θ (2)) T δ (3) . * a (2) . * (1 - a (2)) (16)

$\delta^{(2)}=(\Theta^{(2)})^\mathrm{T}\delta^{(3)}.\ast a^{(2)}.\ast(1-a^{(2)})\tag{16}$ 由于第一层为输入层，我们不想修改它的值，因此我们只做到第二层就结束。
当我们求完输入层以外的所有层的“误差”

δ $\delta$ 后，我们只需一步就可以求得偏导数，即

\partial \partial θ ( k ) i , j J (θ) = a (k) j δ (k + 1) i (17)

$\frac{\partial}{\partial\theta_{i,j}^{(k)}}J(\theta)=a_j^{(k)}\delta_i^{(k+1)}\tag{17}$ 向量表示如下，可知

Δ(k) $\Delta^{(k)}$ 均为

2×3 $2\times3$ 矩阵，与

Θ(k) $\Theta^{(k)}$ 维数相符。

Δ (k) = δ (k + 1) (a (k)) T (18)

$\Delta^{(k)}=\delta^{(k+1)}(a^{(k)})^\mathrm{T}\tag{18}$
以上只举了一个例子，当训练集为

m $m$ 时，由代价函数的定义可知

Δ (k) = \sum i = 1 m Δ (k) i (19)

$\Delta^{(k)}=\sum_{i=1}^m\Delta_i^{(k)}\tag{19}$ 因此偏导数如下，不要忘记考虑正则项

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ \partial \partial Θ ( k ) i j J (Θ) = 1 m (Δ (k) i, j + λ Θ (k) i, j) \partial \partial Θ ( k ) i j J (Θ) = 1 m Δ (k) i, j if j \neq 0 if j = 0 (20)

$\begin{cases} \frac{\partial}{\partial\Theta_{ij}^{(k)}}J(\Theta)=\frac1m(\Delta_{i,j}^{(k)}+\lambda \Theta_{i,j}^{(k)}) & \text{if $j\neq0$}\\\frac{\partial}{\partial\Theta_{ij}^{(k)}}J(\Theta)=\frac1m\Delta_{i,j}^{(k)}& \text{if $j=0$} \end{cases}\tag{20}$

让我们来整体看一下这个算法
这里写图片描述
有了代价函数和偏导数，接下来就可以利用熟知的梯度下降法或者其他算法来求得最优值。
注：

虽然这样的神经网络是非凸型的，即有局部最优值，但是实践证明梯度下降法也可以得到比较满意的解，虽然不是最优解。
初始化 $\Theta$ 时，我们应该随机化初始化，若每一层的 $\Theta_{i,j}$ 一样时，神经网络将每一层的单元数将退化成一个单元。
用梯度下降法时有时虽然可以看到每一轮的代价函数所得值逐步降低，但是这不代表梯度没有求错，因此可以用手工计算梯度来校验，但是代价比较高，当发现梯度算对后应结束手工计算梯度这一步骤。 $\partial z \partial x = f ( x + ϵ , y ) - f ( x - ϵ , y ) 2 ϵ$ $\frac{\partial z}{\partial x}=\frac{f(x+\epsilon,y)-f(x-\epsilon,y)}{2\epsilon}$