神经网络（neural networks）

最新推荐文章于 2022-12-28 19:54:15 发布

Ldaze

最新推荐文章于 2022-12-28 19:54:15 发布

阅读量503

点赞数

分类专栏：机器学习文章标签：神经网络机器学习深度学习

本文链接：https://blog.youkuaiyun.com/qq_43812171/article/details/112990945

版权

机器学习专栏收录该内容

5 篇文章

订阅专栏

神经网络理论

感知机

感知机由两层神经元组成。

用数学描述感知机：

定义一个增广向量 $\vec{x}$
$\begin{cases} \vec{x}=\left[\begin{array}{cc} x\\ 1 \end{array}\right]&,\quad y=+1\\\\ \vec{x}=\left[\begin{array}{cc} -x\\ -1 \end{array}\right]&,\quad y=-1 \end{cases}$

定义增广向量 $\omega=[\begin{array}{cc}\omega \\ b\end{array}]$ ，这样，就可以将问题
$\begin{cases} \omega^Tx+b\ge0,\quad y_i=+1\\\\ \omega^Tx+b<0,\quad y_i=-1 \end{cases}$

简化为"找 $\omega$ ，使 $\omega^T\vec{x_i}\ge0$ "。

则感知机算法流程为：

输入训练样本集 $\vec{x}=\{\vec{x_1},\vec{x_2},\cdots,\vec{x_N}\}$
随机初始化 $\omega$
repeat:挑一个 $\vec{x_i}$ ，若 $\omega^T\vec{x_i}<0$ ，则 $\omega=\omega+\vec{x_i}$
until:对 $\forall \vec{x_i}$ 都有 $\omega^T\vec{x_i}>0$ 成立

感知机算法收敛定理：输入 $\{\vec{x_i}\},i=1\sim N$ ，若该样本集线性可分，则感知机算法经过有限步后，一定能得到一个 $\omega$ ，使 $\omega^T\vec{x_i}>0,i=1\sim N$

证明：不失一般性，设能将样本集正确划分的超平面系数为 $\omega$ ，且 $||\omega||$ =1，第k步得到的超平面是 $\omega_k$ ，且 $\exists\vec{x_i}$ ，使 $\omega_k^T\vec{x_i}<0$ ，根据感知机算法有：
$\begin{aligned} ||\omega_{k+1}-a\omega||^2&=||\omega_k+\vec{x_i}-a\omega||^2\\ &=||(\omega_k-a\omega)+\vec{x_i}||^2\\ &=||\omega_k-a\omega||^2+||\vec{x_i}||^2+2\omega_k^T\vec{x_i}-2a\omega^T\vec{x_i} \end{aligned} \\ \begin{aligned} \\ &\because \omega^T\vec{x_i}>0\\ &\therefore \exists a使-2a\omega^T\vec{x_i}<0\\ &即\exists a使||\omega_{k+1}-a\omega||^2<||\omega_k-a\omega||^2\\ &\therefore经过足够多次的迭代，\omega_{k+1}与\omega的距离会趋近于0 \end{aligned}$

如果在每次迭代后 $\omega_{k+1}$ 与 $\omega$ 距离的缩小量是无穷小，那么依然不能说明感知机算法一定收敛。

为了进一步说明感知机算法必收敛，设 $\beta=max\{||\vec{x_i}||\},\gamma=min(\omega^T\vec{x_i}),i=1\sim N$ ，取 $a=\frac{\beta^2+1}{2\gamma}$ ，则有 $||\omega_{k+1}-a\omega||^2<||\omega_k-a\omega||^2-1$ ，取 $d=||\omega_0-a\omega||$ ，则至多经过 $d^2$ 步， $\omega_0$ 将会收敛至 $\omega$ 。

多层感知机

多层感知机必须激活，如果没有激活函数，那么将与一层的 $y=\omega^Tx+b$ 没有区别。这是因为，如果模型是线性的，将所有的括号展开后，式子将形如 $y=\omega^Tx+b$ ，这意味着，多层训练好的参数加到一起与一层的参数是基本相等的。这样做不仅没有提升感知机的效果，反而白白的增加了参数使得计算量增大。

如果选用阶跃函数作为激活函数，则可以处理所有非线性问题。

定理：三层神经网络可以模拟所有决策面。
证明：
在这里插入图片描述
如图所示，多边形内为一类，多边形外为另一类。可以建立7个超平面将两类分开，也就是对应神经网络中第一层的七个神经元；对于每个超平面，在超平面上方输出结果为正，在超平面下方输出结果为负，通过阶跃函数激活，第二层的输入将为0/1；由于一共有两个图形，因此第二层应有两个神经元，分别对应于三角形和四边形，根据第二层输入的不同的0/1组合，判断该样本点是否在三角形或四边形内；第三层要做出判断该样本点为哪一类，由于是二分类，因此一个神经元就够。具体结构如图所示：
在这里插入图片描述

显然这种构造网络结构的方式是“一般”的，把坐标系中每个图形的边数加在一起就是第一层的神经元个数，因为需要这么多超平面就可以划分出一样效果的区域（如果是圆就是无数条直线）；坐标系中有几个图形第二层就有多少个神经元（若只有一个图形，则感知机层数两层就够了）；分成几类第三层就有多少个神经元（二分类问题除外，一个神经元就够了，两个神经元也可以但没必要）。

对于多分类问题，设共有N类，N>2，则最后一层有N个神经元，经过激活后输出为一个只有0和1的向量，因此为了实际标签能够指导训练，需要将实际标签也改成一个只有0和1的向量，即只有表示这个类别的位置为1，其余位置全为0。

损失函数

损失函数是一个用以量化模型输出与真实值差距的函数。
回归问题常用均方误差（Mean Square Error）作为损失函数
$E=\frac{1}{2}||q_i-p_i||^2$
分类问题常用交叉熵（Cross Entropy）作为损失函数
$E=-\sum_{i=1}^{N}p_ilog_2(qi)$

其中 $p_i$ 为真实标签/值， $q_i$ 为预测标签/值。

交叉熵中的log常以2或e为底。

爬山法

梯度下降求局部极值（Gradient Descent Method）。

1.随机初始化 $\omega_0$ ；
2.若 $\frac{df(\omega)}{d\omega}|_{\omega_k}=0$ ，退出；否则 $\omega_{k+1}=\omega_k-\alpha\frac{df(\omega)}{d\omega}|_{\omega_k}$ 。

其中， $\alpha$ 为学习率，若学习率过高，可能会反复越过极值点，导致无法收敛；若学习率过低，虽然能找到局部最低点，但是训练速度过于缓慢。

常用的激活函数

由于在使用BP算法求极值的时候需要求导，而阶跃函数的导数为0，因此需要用其他非线性函数替代它，这些非线性函数的导数很好求，且能和阶跃函数达到一样的效果，不会影响感知机的性能。

$\begin{aligned} sigmoid\qquad &\varphi(x)=\frac{1}{1+e^{-x}}\\ &\varphi^{'}(x)=\varphi(x)[1-\varphi(x)]\\\\ tanh\qquad &\varphi(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}\\ &\varphi^{'}(x)=1-\varphi^2(x)\\\\ ReLU\qquad &\varphi(x)=max(0,x)\\ &\varphi^{'}(x)=\begin{cases} 1,\quad x>0\\ 0,\quad x\le0 \end{cases}\\\\ Leaky\quad ReLU\qquad &\varphi(x)=max(\beta x,x)\\ &\varphi^{'}(x)=\begin{cases} 1,\quad x>0\\ \beta,\quad x\le0 \end{cases} \end{aligned}$

分类任务采用sigmoid激活，回归任务采用tanh激活。

引入ReLU的原因：

1.采用sigmoid、tanh等函数，正向传播时计算量大；而ReLU的计算量较小。

2.网络特别深时，sigmoid函数反向传播时，很容易就会出现梯度消失的情况。

3.ReLU会使一部分神经元的输出为0，使网络产生了稀疏性，减少了参数的相互依存关系，缓解了过拟合问题的发生。

后向传播算法（Back Propagation，BP）

1.随机初始化 $(\omega,b)$ ；
2.输入训练样本（X,Y），代入网络（前向传播），可求出所有的节点数值；
3.使用链式法则分别对 $\omega,b$ 求偏导
4.更新：
$\begin{aligned} \omega^{(new)}&=\omega^{(old)}-\alpha\frac{\partial E}{\partial\omega}|_{\omega^{(old)}}\\ b^{(new)}&=b^{(old)}-\alpha\frac{\partial E}{\partial b}|_{b^{(old)}} \end{aligned}$

推导：
设激活函数为 $\varphi(x)$ ；
网络共有n层；
$a^{(h)},b^{(h)},z^{(h)}$ 是第h层的向量，分量个数与第h层的神经元个数 $n^h$ 一致；
$a_i^{(h)},b_i^{(h)},z_i^{(h)}$ 表示第h层的第i个分量；
$y$ 表示预测值， $\hat{y}$ 表示真实值；
$y_i$ 表示 $y$ 的第 $i$ 个分量， $\hat{y_i}$ 表示 $\hat{y}$ 的第 $i$ 个分量，则神经网络可以写成：

$\begin{aligned} &\omega^{(1)T}x+b^{(1)}=z^{(1)}\xrightarrow{\varphi(x)}a^{(1)}=\varphi(z^{(1)})\longrightarrow\\ &\omega^{(2)T}a^{(1)}+b^{(2)}=z^{(2)}\xrightarrow{\varphi(x)}a^{(2)}=\varphi(z^{(2)})\longrightarrow\cdots\longrightarrow\\ &\omega^{(n)T}a^{(n-1)}+b^{(n)}=z^{(n)}\xrightarrow{\varphi(x)}y=a^{(n)}=\varphi(z^{(n)}) \end{aligned}$

设 $E=\frac{1}{2}||y-\hat{y}||^2,\quad \delta_i^{(k)}=\frac{\partial E}{\partial z_i^{(k)}}$ 则有：
$\begin{aligned} &\delta_i^{(n)}=\frac{\partial E}{\partial z_i^{(n)}}=\frac{\partial E}{\partial y_i^{(n)}}\frac{\partial y_i}{\partial z_i^{(n)}}=(y_i-\hat{y})\varphi^{'}(z_i^{(n)})\\ &\delta_i^{(k)}=\frac{\partial E}{\partial z_i^{(k)}}=\frac{\partial E}{\partial a_i^{(k)}}\frac{\partial a_i^{(k)}}{\partial z_i^{(k)}}=\sum_{j=1}^{n^{k+1}}\omega_{ij}^{(k+1)}\delta_j^{(k+1)}\varphi^{'}(z_i^{(k)})\\ &\frac{\partial E}{\partial \omega_{ij}^{(k)}}=\delta_j^{(k)}\alpha_i^{(k-1)}\\ &\frac{\partial E}{\partial b_i^{(k)}}=\delta_i^{(k)} \end{aligned}$

调参

1.随机梯度下降（Stochastic Gradient Descent，SGD）
不用每输入一个样本就去变换参数，而是输入一批样本（叫做一个batch或mini-batch），求出这些样本的梯度平均值后，根据这个平均值改变参数。
在神经网络训练中，batch的样本数大致设置为50~200不等。

2.激活函数
Sigmoid、tanh、ReLU、Leaky ReLU、Maxout、ELU、Softmax。

3.归一化
最常见的是均值和方差归一化，可以让输入的维度对结果的影响都差不多。

4. $\omega,b$ 的初始化
在 $(-\frac{1}{\sqrt{d}},\frac{1}{\sqrt{d}})$ 之间均匀随机取值。其中 $d$ 为 $\omega,b$ 所在层的神经元个数，如果 $x$ 服从正态分布（均值为0，方差为1），且各个维度无关，而 $(\omega,b)$ 是 $(-\frac{1}{\sqrt{d}},\frac{1}{\sqrt{d}})$ 的均匀分布，则 $\omega^Tx+b$ 是均值为0，方差为 $\frac{1}{3}$ 的正态分布。