神经网络原理与实践-优快云博客

本文链接：https://blog.youkuaiyun.com/FKH20009200446/article/details/128211531

2. 神经网络

神经网络涉及的范围极其广，本章需要了解的推导我们正常给出，但一些附加的内容将以引用块给出，例如：

written by XDU微积冯

1. Feed-forward 前馈神经网络

对于前馈神经网络的推导，我们以下图为样例：

首先，我们有输入变量 $x_1,x_2,...,x_D$ 。hidden层的单元 $j$ 可以由如下公式计算：
$a_j = \sum_{i=1}^D w_{ji}^{(1)}x_i + w_{j0}^{(1)} = \sum_{i=0}^D w_{ji}^{(1)}x_i \tag{1}$

$z_j = h(a_j)\tag{2}$

其中我们设 $x_0=1$ ， $h(\cdot)$ 表示非线性激活函数(例如logistic sigmoid)。这样hidden layer的 $M$ 个单元都可以计算得出。那么输出层的单元也可以通过类似方法得到：
$a_k = \sum_{j=1}^M w_{kj}^{(2)}z_j + w_{k0}^{(2)} = \sum_{j=0}^M w_{kj}^{(2)}z_j \tag{3}$

$y_k = \begin{cases} a_k, \quad 针对回归问题\\ \sigma(a_k) = \frac{1}{1+\exp(-a_k)}, \quad针对二分类 \end{cases}\tag{4}$

其中我们设 $z_0=1$ 。这样我们整合(1)~(4)式，可以得到两层神经网络的前馈网络函数：
$\begin{aligned} y_k(\pmb{x},\pmb{w}) &= \sigma\left(\sum_{j=1}^M w_{kj}^{(2)}h\left(\sum_{i=1}^Dw_{ji}^{(1)}x_i+w_{j0}^{(1)} \right)+w_{k0}^{(2)} \right)\\ &= \sigma\left(\sum_{j=0}^M w_{kj}^{(2)}h\left(\sum_{i=0}^Dw_{ji}^{(1)}x_i \right) \right) \end{aligned}\tag{5}$
可以看到，两层神经网络之间使用了连续的非线性激活函数。这是因为线性激活函数的使用，会导致整个网络和一个无隐含层的线性变换等价。并且连续的性质使得网络参数变得可微。

并且，网络结构可以是稀疏的，并不一定要全连接(即求和时不需要包含上一次全部节点)，如卷积神经网络CNN。

2. Cost Function & 网络训练

2.1 损失函数

2.1.1 回归问题

对于回归问题，给定输入数据 $\pmb{x}_n(n=1,...,N)$ ，和目标变量 $t_n$ ，我们的损失函数可以表示为
$E(\pmb{w}) = \frac{1}{2}\sum_{n=1}^N \lVert y(\pmb{x}_n,\pmb{w}) - t_n \rVert^2\tag{6}$
我们设目标变量 $t$ 服从高斯分布，均值与 $\pmb{x}$ 相关，由神经网络的输出确定，即
$p(t|\pmb{x},\pmb{w}) = \mathcal{N}(t|y(\pmb{x},\pmb{w}),\beta^{-1})\tag{7}$
那么我们通过整个数据集 $X=\{\pmb{x_1},...,\pmb{x}_N \}$ 和其目标变量 $\pmb{t}=\{t_1,...,t_N \}$ (假设数据独立同分布)，可以构造似然函数
$p(\pmb{t}|X,\pmb{w},\beta) = \prod_{n=1}^N p(t_n|\pmb{x}_n,\pmb{w},\beta) = \prod_{n=1}^N \mathcal{N}(t|y(\pmb{x}_n,\pmb{w}),\beta^{-1})\tag{8}$
我们将似然函数取负对数，就有
$\begin{aligned} -\ln p(\pmb{t}|X,\pmb{w},\beta) &= \frac{\beta}{2}\sum_{n=1}^N\{y(\pmb{x}_n,\pmb{w})-t_n \}^2+\frac{N}{2}\ln 2\pi -\frac{N}{2}\ln \beta\\ &= \frac{\beta}{2}E(\pmb{w}) + \frac{N}{2}\ln 2\pi -\frac{N}{2}\ln \beta \end{aligned}\tag{9}$
其中与参数 $\pmb{w}$ 有关的项就是平方和损失。我们可以通过最小化该损失得到最优的参数 $\pmb{w}_{ML}$ 。接着我们可以寻找 $\beta$ 的最优值
$\nabla L(\beta) = \frac{1}{2}\sum_{n=1}^N \{y(\pmb{x}_n,\pmb{w})-t_n \}^2 - \frac{N}{2}\frac{1}{\beta}=0 \\ \frac{1}{\beta_{ML}} = \frac{1}{N}\sum_{n=1}^N \{y(\pmb{x}_n,\pmb{w})-t_n \}^2\tag{10}$
对于多元目标变量 $\pmb{t}$ ，我们也可以有类似推导，这里不再赘述。

根据式(4)，对于神经网络的输出 $y_k= a_k$ ，在回归问题下，使用平方和损失有如下性质
$\frac{\partial E}{\partial a_k} = y_k - t_k\tag{11}$

2.1.2 二分类和多分类

针对二分类，我们使用一元目标变量 $t$ 表示类别， $t = 1$ 表示类别 $C_1$ ， $t = 0$ 表示类别 $C_2$ 。它使用sigmoid激活函数
$\sigma(a) = \frac{1}{1+\exp(-a)}\tag{12}$
从而 $0\leq y(\pmb{x},\pmb{w})\leq 1$ 。若 $p(C_1|\pmb{x})=y(\pmb{x},\pmb{w})$ ，则 $p(C_2|\pmb{x})=1-y(\pmb{x},\pmb{w})$ 。于是对于目标变量 $t$ ，其类条件概率为
$p(t|\pmb{x},\pmb{w}) = y(\pmb{x},\pmb{w})^t (1-y(\pmb{x},\pmb{w}))^{1-t}\tag{13}$
则对于数据集而言，似然函数可以表示为
$p(\pmb{t}|X,\pmb{w}) = \prod_{n=1}^N y_n^{t_n} (1-y_n)^{t_n}\tag{14}$
损失函数(交叉熵损失)取为似然函数的负对数，即
$E(\pmb{w}) = -\sum_{n=1}^N \{t_n\ln y_n + (1-t_n)\ln(1-y_n) \}\tag{15}$
针对多个独立二分类问题，类似地有类条件概率、损失函数如下
$p(\pmb{t}|\pmb{x},\pmb{w}) = \prod_{k=1}^K y_k(\pmb{x},\pmb{w})^{t_k} (1-y_k(\pmb{x},\pmb{w}))^{1-t_k} \\ E(\pmb{w}) = -\sum_{n=1}^N\sum_{k=1}^K \{t_{nk} \ln y_{nk}+(1-t_{nk})\ln(1-y_{nk}) \}\tag{16}$
针对多分类问题，激活函数为softmax函数
$y_k(\pmb{x},\pmb{w}) = p(C_k|\pmb{x}) =\frac{\exp\left(a_k(\pmb{x},\pmb{w})\right)}{\sum_j\exp(a_j(\pmb{x},\pmb{w}))}\tag{17}$
可见 $\sum_jy_j(\pmb{x},\pmb{w})=1$ 。损失函数可以表示为
$E(\pmb{w}) = -\sum_{n=1}^N\sum_{k=1}^K t_{nk}\ln y_k(\pmb{x}_n,\pmb{w})\tag{18}$

2.2 局部二次近似

我们将损失函数在某点泰勒展开
$E(\pmb{w}) \simeq E(\hat{\pmb{w}}) + (\pmb{w}-\hat{\pmb{w}})^T\pmb{b}+\frac{1}{2}(\pmb{w}-\hat{\pmb{w}})^TH(\pmb{w}-\hat{\pmb{w}})\tag{19}$
使用其中的梯度信息寻找最优参数 $w$ 。具体流程详见PPT，并非重点。

3. Backpropagation 反向传播

对于整个数据集而言，损失函数表达为各数据点的损失之和
$E(\pmb{w}) = \sum_{n=1}^N E_n(\pmb{w})\tag{20}$
对总体损失进行梯度下降会面临计算量大，数据冗余的问题，所以我们采用顺序梯度下降(也被称为在线梯度下降)
$\pmb{w}^{\tau+1} = \pmb{w}^\tau - \eta\nabla E_n(\pmb{w}^\tau)\tag{21}$
现在，我们使用损失函数式(6)进行讨论。

对于一个前馈网络，我们可以由式(1)(2)得
$a_j = \sum_i w_{ji} z_i\\ z_j = h(a_j)\tag{22}$
其中我们省略了上标，即 $z_i$ 表示上一层的输出(即本层输入)， $z_j$ 表示这一层的输出。

我们求损失函数 $E_n$ 关于该层参数 $w_{ji}$ 的导数，有：
$\begin{aligned} \frac{\partial E_n}{\partial w_{ji}} &= \frac{\partial E_n}{\partial a_j}\frac{\partial a_j}{\partial w_{ji}}\\ &= \delta_j z_j\tag{23} \end{aligned}$
其中 $\delta_j = \frac{\partial E_n}{\partial a_j}$ 。由上式可得，想要求解(23)，我们只需要得到 $\delta_j$ 的值即可。

对于神经网络的输出层单元 $y_k=a_k$ ，我们使用式(11)有
$\delta_k = \frac{\partial E_n}{\partial a_k} = y_k - t_k\tag{24}$
则对于输出层的上一层，我们有
$\begin{aligned} \delta_j &= \sum_k \frac{\partial E_n}{\partial a_k}\frac{\partial a_k}{\partial a_j}\\ &= \sum_k \delta_k\cdot (h'(a_j)w_{kj}) =h'(a_j)\sum_k w_{kj}\delta_k \end{aligned}\tag{25}$
式(25)就是反向传播的公式。我们可以通过此式继续求解 $a_j$ 所在层的上一层，以此类推。

于是反向传播的4个步骤可以表述为

对网络的一个输入 $\pmb{x}_n$ ，先通过正向传播，计算出所有的激活 $z_j$ ；
用公式(24)计算所有输出单元的 $\delta_k$ ；
使用式(25)反向传播，获得所有hidden单元的 $\delta_j$ ；
使用式(23)计算所有权重的导数。

最终我们可以用式(21)作每一轮的更新，迭代求得最优解。

4. 神经网络的正则化

对神经网络的正则化有多种方式。

神经网络的输入层和输出层通常由数据维度和目标变量维度决定，但中间的hidden layer的维度(或称隐含单元数量)M则是可调节的超参数。我们可以通过调节M的具体值来提升模型的泛化性能，如下图所示：

当然，我们有其他的方式来提升神经网络模型的泛化能力，以避免过拟合。

4.1 权值衰减及其变式

一个简单且常用的方法就是在损失函数上加入正则化项
$\tilde E(\pmb{w}) = E(\pmb{w}) + \frac{\lambda}{2}\pmb{w}^T\pmb{w}\tag{26}$
该式被称为权值衰减(weight decay)。权值衰减的正则化项(第二项)可以表示为权值 $\pmb{w}$ 上的零均值高斯先验分布的负对数。权值衰减的局限是它与网络映射的确定缩放性质不相容。

什么是网络映射的缩放性质？

考虑简单的两层网络
$z_j = h\left( \sum_i w_{ji}x_i+w_{j0} \right)\\ y_k = \sum_jw_{kj}z_j+w_{k0}\tag{27}$
假设我们对输入变量进行线性变换，形式为
$x_i \rightarrow \tilde{x}_i=ax_i+b\tag{28}$
为使网络给出的映射不发生变化，我们可以对权重作如下变化
$w_{ji} \rightarrow \tilde{w}_{ji} = \frac{1}{a}w_{ji}\\ w_{j0} \rightarrow \tilde{w}_{j0}=w_{j0} - \frac{b}{a}\sum_iw_{ji}\tag{29}$
类似地，针对输出变量进行线性变换，我们也可以通过对权重进行变换而使网络的映射不发生变化：
$y_k \rightarrow \tilde{y}_k = cy_k+d\tag{30}$

$w_{kj} \rightarrow \tilde{w}_{kj}=c\cdot w_{kj}\\ w_{k0} \rightarrow \tilde{w}_{k0}=cw_{k0}+d\tag{31}$

在每次线性变换时，我们都修改了权重 $w$ 的数值，这会使得权值衰减的正则化项发生变化，不满足映射的不变性。于是我们要优化权值衰减的表达式，使之满足这种不变性。这样的正则化项为
$\frac{\lambda_1}{2}\sum_{w\in \mathcal{W}_1}w^2+\frac{\lambda_2}{2}\sum_{w\in \mathcal{W}_2}w^2\tag{32}$
其中 $\mathcal{W}_1,\mathcal{W}_2$ 分别表示第一层权重和第二层权重。我们可以通过对参数 $\lambda$ 进行线性变换而使正则化项不变。

式(32)就是权值衰减的一个变式，它则对应于下面形式的先验概率分布
$p(\pmb{w}|\alpha_1,\alpha_2) \propto \exp \left( -\frac{\alpha_1}{2}\sum_{w\in \mathcal{W}_1}w^2 - \frac{\alpha_2}{2}\sum_{w\in \mathcal{W}_2}w^2 \right)\tag{33}$
但是，这个形式的先验概率首先不能够被归一化，其次会给正则化系数的选择带来困难。

4.2 早停止

因为非线性网络模型的训练对应于误差函数的迭代减小，而误差函数是针对训练集定义的，且随优化算法的迭代逐渐减小(或不增)。但对于验证集数据上的损失，通常随着优化算法迭代先减小后增大，如下图所示：

在这里插入图片描述

早停止是指训练过程可以在关于验证集误差最小的点停止，这样可以得到一个泛化性能最强的模型。

4.3 不变性 Invariances

在许多模式识别的应用中，对于输入变量的一系列变换，模型的预测结果不应该发生变化，或者说应具有不变性。例如手写数字识别的分类问题中，图像的类别应与图片中数字的位置和大小无关，尽管位置和大小的变换会导致图片像素值发生巨大变化。

如果可以获得足够多的训练模式(即包含足够多表示各种变换的效果的样本)，那么可调节的模型(例如神经网络)可以学习到不变性。但实际中训练样本受限，我们必须有其他方法来让这些模型学习不变性。具体的方法有：

复制训练模式，同时根据要求的不变性进行变换，对训练集进行扩展。例如在手写数字识别数据集中，把每个样本复制多次，在对每个复制的样本执行不同的平移操作。

评价：简单、可以用来处理复杂的不变性

在这里插入图片描述

为误差函数加上一个正则化项，用以惩罚当输入变换时，输出发生的改变。这引出了切线传播方法。

评价：保持了数据集不变性，给误差函数加了正则化项。

切线传播方法概述：

对于一个特定输入向量 $\pmb{x}_n$ ，考虑变换产生的效果。假设变换是连续的(例如平移和旋转)，那么变换的模式会扫过D维输入空间的一个流形 $\mathcal{M}$ 。例如当D=2时，有如下图所示

假设变换由单一参数 $\xi$ 控制(例如 $\xi$ 可能是旋转的角度)，那么被 $\pmb{x}_n$ 扫过的子空间 $\mathcal{M}$ 是一维的，并且以 $\xi$ 为参数。将此变换作用于 $\pmb{x}_n$ 上产生的向量设为 $\pmb{s}(\pmb{x}_n,\xi)$ ，且 $\pmb{s}(\pmb{x}_n,0)=\pmb{x}_n$ 。那么曲线 $\mathcal{M}$ 的切线就由方向导数 $\pmb{\tau}=\frac{\partial\pmb{x}}{\partial \xi}$ 给出，且点 $\pmb{x}_n$ 处有
$\pmb{\tau}_n = \frac{\partial \pmb{s}(\pmb{x}_n,\xi)}{\partial \xi}\vert_{\xi=0}\tag{34}$
输入变量变换后，输出通常会发生改变，输出单元k关于 $\xi$ 的导数为
$\frac{\partial y_k}{\partial \xi}\vert_{\xi=0} = \sum_{i=1}^D \frac{\partial y_k}{\partial x_i}\frac{\partial x_i}{\partial \xi}\vert_{\xi=0}=\sum_{i=1}^D J_{ki}\tau_i\tag{35}$
其中 $J_{ki}$ 是Jacobian矩阵的第(k,i)个元素。我们惩罚输出的这种改变，于是在损失函数上加入正则化项
$\tilde E = E + \lambda\Omega\tag{36}$
$\lambda$ 为正则化系数，且
$\Omega = \frac{1}{2}\sum_n\sum_k \left(\frac{\partial y_k}{\partial \xi}\vert_{\xi=0}\right)^2=\frac{1}{2}\sum_n\sum_k\left( \sum_{i=1}^DJ_{nki}\tau_{ni} \right)^2\tag{37}$

抽取在所要求的变换下不发生改变的特征，这使得不变性被整合到与处理过程中，任何使用这些特征作为输入的模型就会具有这些不变性。

评价：对于数据集没有包含的变换，可以正确地进行外插(即只需要扩展特征向量即可)。
把不变性的性质整合到神经网络的构建中，或者对于相关向量机的方法，整合到核函数中。例如，通过使用局部接收场和共享权重的CNN算法。

5. Jacobian矩阵和Hessian矩阵

Jacobian矩阵可以求解网络输出关于网络输入的导数，Hessian矩阵计算的是误差函数的二阶导数。由于式(35)(37)使用了前者，故我们简要推导一下Jacobian矩阵的公式。而对于Hessian矩阵，它的计算有多种方法(对角近似、外积近似、有限差、精确计算)，内容较多且不在考察范围内，且建议有时间可以看看PPT，本文不再赘述。

Jacobian矩阵的元素值是网络输出关于输入的导数
$J_{ki} = \frac{\partial y_k}{\partial x_i}\tag{38}$

这个矩阵的用处非常大。例如我们想关于下图的参数 $w$ ，最小化误差函数 $E$ ，那么误差函数的导数为

$\frac{\partial E}{\partial w} = \sum_{k,j} \frac{\partial E}{\partial y_k} \frac{\partial y_k}{\partial z_j} \frac{\partial z_j}{\partial w}\tag{39}$
其中Jacobian矩阵出现在中间项。

其次，由于Jacobian矩阵度量了输出对于每个输入变量改变的敏感性(由于计算的是导数)，因此它可以估计输入变量的误差 $\Delta x_i$ 对于输出误差 $\Delta y_k$ 的贡献
$\Delta y_k = \sum_i \frac{\partial y_k}{\partial x_i}\Delta x_i\tag{40}$

可以看到，Jacobian矩阵是关于输入向量的矩阵，故对于新的输入向量，Jacobian矩阵要重新计算。可通过反向传播算法计算：
$\begin{aligned} J_{ki} = \frac{\partial y_k}{\partial x_i} &= \sum_j \frac{\partial y_k}{\partial a_j}\frac{\partial a_j}{\partial x_i}\\ &= \sum_j w_{ji}\frac{\partial y_k}{\partial a_j}\tag{41} \end{aligned}$
其中的求和式作用于所有向单元i发送链接的单元j上( $a_j$ 是与 $x_i$ 有连接的，下一层中的单元，由于 $x_i$ 位于输入层，则 $a_j$ 是第一个隐含层的单元)。我们可以用式(25)来进一步计算

$\begin{aligned} \frac{\partial y_k}{\partial a_j} &= \sum_l \frac{\partial y_k}{\partial a_l}\frac{\partial a_l}{\partial a_j} \\ &= h'(a_j)\sum_l w_{lj}\frac{\partial y_k}{\partial a_l}\tag{42} \end{aligned}$
其中 $a_l$ 又是 $a_j$ 所在隐含层的下一层中的单元。这样通过不断地递归，可以求得Jacobian矩阵的值。