全连接神经网络正向传播、反向传播和参数更新详解

深度学习基础：全连接神经网络的正向传播与反向传播

原创已于 2023-03-29 09:59:21 修改 · 1.1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #机器学习 #深度学习

于 2023-03-28 14:53:14 首次发布

本文介绍了全连接神经网络的基本概念，包括回归问题与分类问题的区别，以及神经网络中的正向传播和反向传播过程。正向传播用于计算网络的输出，反向传播则用于优化网络的权重，通过梯度下降减少损失函数。文章还讨论了激活函数如sigmoid在神经网络中的作用，并提到了训练感知机的基本方法。

问题与概述

在很长时间里，人们对于给定一组x~y求解函数 $y = f (x)$ 一直有各种各样的研究，长期以来，人们依赖于数学方法求解计算，但是当计算机快速发展，人们的求解工具也在逐步进化。

接下来的文章中，我会以以下顺序讲解：

人们希望解决怎样的问题；
全连接神经网络概述；
正向传播如何实现；
反向传播如何实现。

回归问题与分类问题

从分类的角度，可以大致分为两类问题：回归问题与拟合问题。

回归问题是给定一组x与连续的y，求解x与y的关系。

比如：给定x=[1,2,3,4,5],y=[2,4,6,7,9,10]，可以大致看出 $y = 2 x$ 。

分类问题是给定一组x与离散的y，求解x与y的关系。

比如：给定x=[1,2,3,4,5,6],y=[-0.8,-1.1,-1,2,0.9,1.1]，可以大致看出 $\begin{cases} -1 &\text{if } x<3.5 \\ 1 &\text{if } x>3.5 \end{cases}$ 。

通过上面的例子，不难发现这种对应关系实际上是很难确定的。

全连接神经网络

参考神经元的工作原理（实际上生物学中神经元的功能比 $y = f (x)$ 更为复杂），对神经元建模，变得到左边是多组不同神经元输入，右边是多组相同的输出。

函数可变为
$f(x)=\sum_{ \begin{subarray}{l} \end{subarray}}(a_ix_i)+b$
可以简单的看做是对输入的加权之后增加一个偏置。
但是对于神经元来说，输出是离散的，遵循函数 $\begin{cases} 0 &\text{if } x<0 \\ 1 &\text{if } x>=1 \end{cases}$ ，这种离散的特性让参数学习（求导过程）很难在计算机中进行（求导结果为0），对于某个参数的更新是通过 $\lambda\leftarrow\lambda+\Delta\lambda$ ，而求导结果为0导致了 $\Delta\lambda$ 很难求解（ $\Delta\lambda$ 永远为0），于是需要使用激活函数。最常用的激活函数是 $sigmoid(x)=\frac{1}{1+e^{-x}}$ 。
典型的神经元激活函数

该函数有一个特点： $f^{'} (x) = f (x) (1 - f (x))$ ，这个在反向传播中需要用到。

这样一个感知机就产生了。

有效性

对于一个4分类问题，类别为 ${D_1, D_2, D_3, D_4\}$ ，训练两个感知器，第一个感知机可以将类型分为 ${D_1, D_2\}, \{D_3, D_4\}$ ，第二个感知机可以将类型分为 ${D_1, D_4\}, \{D_2, D_3\}$ ，那么这两个感知机（神经元）并联一定可以直接得到类型。

训练感知机

对于训练集，构成是x~y，那么假定神经网络输出为 $\hat{y}$ ， $\hat{y}$ 与真实的标签 $y$ 之间一定有误差，这时就需要一个函数 $\hat{y})$ 来计算其误差，也被称为损失函数。模型的训练就是减少损失函数的过程，损失函数有很多种，并且有很多介绍，在此不再赘述。

公式推导

正向传播（前向传播）

对于一个神经元，其中 $a, b$ 为参数
$f(x)=\sum_{ \begin{subarray}{l} \end{subarray}}(a_ix_i)+b \tag{1}$

经过激活函数得到输出
$\begin{equation} \begin{split} \hat{y} &=sigmoid(f(x))\\ &=sigmoid(\sum_{ \begin{subarray}{l} \end{subarray}}(a_ix_i)+b) \end{split} \end{equation} \tag{2}$

经过损失函数 $\hat{y})$ 得到损失，假设使用均方误差作为损失函数

$E_k=f(y, \hat{y})=\frac{1}{2}\sum_{ \begin{subarray}{l} \end{subarray}}(\hat{y_j}-y_j)^2 \tag{3}$

反向传播

希望求解参数 $a, b$ ，使用工具 $a\leftarrow a+\Delta a， b\leftarrow b+\Delta b$ ，该问题变为如何求解 $\Delta a ,\Delta b$ ，我们期望从损失函数 $E_k=f(y, \hat{y})$ 反向推导出参数 $a, b$ 对应的损失 $\Delta a, \Delta b$ 。接下来就是对参数的推导。以下图神经网络为例，后面的公式推导会使用图中的变量

神经网络
假定对于隐藏层 $b$ 的第 $h$ 个神经元 $b_h$ 收到的输入为
$\alpha_h=\sum_{ \begin{subarray}{l} \end{subarray}}(v_{ih}x_i)\tag{4}$

输出层第 $j$ 个神经元 $y_j$ 收到的输入为
$\beta_j=\sum_{ \begin{subarray}{l} \end{subarray}}(w_{hj}b_h)\tag{5}$

$w_{hj}$ 为神经元 $b_h$ 的输出。通过(5)式可得到

$b_h=\frac{\partial\beta_j}{\partial w_{hj}}\tag{6}$

BP算法基于梯度下降算法，以目标的负梯度方向对参数进行调整，给定学习率 $\eta$ ，有

$\Delta w_{hj}=-\eta\frac{\partial E_k}{\partial w_{hj}}\tag{7}$

展开

$\frac{\partial E_k}{\partial w_{hj}}=\frac{\partial E_k}{\partial\hat{y_j}}\cdot\frac{\partial\hat{y_j}}{\partial \beta_j}\cdot\frac{\partial\beta_j}{\partial w_{hj}}\tag{8}$

先看前两项，相当于对 $\partial sigmoid(E_k)=\partial E_k\partial sigmoid(E_k)$ 求导

$\frac{\partial E_k}{\partial\hat{y_j}}\cdot\frac{\partial\hat{y_j}}{\partial \beta_j}=\frac{\partial E_k}{\partial \beta_j}=\hat{y_j}(\hat{y_j}-1)(y_j-\hat{y_j})\tag{9}$