神经网络小记

最新推荐文章于 2023-10-08 09:54:47 发布

原创最新推荐文章于 2023-10-08 09:54:47 发布 · 231 阅读

CC 4.0 BY-SA版权

本文探讨了神经网络的基本原理，包括隐藏层的作用、通用近似定理的意义以及激活函数的选择。介绍了sigmod、Tanh、RELU及其变种LeakyRELU的特点，讨论了它们在解决梯度消失问题中的作用。

神经网络在最近几年特别火，不管是做传统机器学习的，还是图片分类、nlp的都需要去学习了解它。
只有一层隐藏层的神经网络：这时候相当于集成学习，隐藏层相当于bagging学习多个模型，输出层使用上一层的结果作为输入相当于boosting。也即模型拥有降低偏差和方差的能力。
没有隐藏层的相当于感知机。
没有隐藏层的网络只能处理线性的问题，不能处理非线性的问题。

**通用近似原理：**如果一个神经网络拥有线性输出层和至少一个隐藏层，则在神经元足够多的，（激活函数）满足一些弱条件的情况下，构造成的符合函数可以近似代替任何在Rn上的连续函数。

通用近似定理告诉我们，一层不行就增加多层。但是如果在隐藏层的输出仍然是线性的，函数符合后也将会是一个线性的，可以通过调整系数后变为一层的模型。故隐藏层的输出函数不能是线性的。我们称每层的输出函数为激活函数。
如果有n个特征，要想逼近任意的函数，则最少需要的节点数O(3(n-1))，此时对应的层数最少为 $2log_2N$ （向上取整）.解释：两个特征组合后输出，再将结果和其他特征组合，则至少有3(n-1)个节点，根据二分法，每次特征两两运算，则最少需要 $2log_2N$ 层。
如果只需要一层隐藏层时，由于凸集上的VC dimension为 $2^N$ ，故最多需要 $2^N$ 个感知机即可完全分类。也即需要这么多神经元才能逼近任意函数。
也即增加层数能在一定程度上降低运算量。

常用激活函数：

sigmod：取值区间为[0,1]，故当输入很大或者很小时，其导数 $f^{'} (z) = f (z) (1 - f (z))$ 趋近于0，出现梯度消失
Tanh：取值区间为[-1,1]，导数为 $1-f^2(z)$ ,当输入很大很小时，导数也趋近于0，出现梯度消失。其实Tanh可通过sigmod经过平移变换得到。 $T a n h (x) = s i g m o i d (2 x) - 1$
RELU $max\{z,0\}$ ：如果仔细观察，可以发现sigmod、Tanh不出现梯度消失的地方值集合近似于一条线。故我们可以考虑使用线性来作为激活函数，但是完全线性的激活函数又没有用，故把0的左边定义为0，此时不再是线性。
- 优点：只需要做一个布尔运算，降低了运算复杂度；梯度很为1，有效解决梯度消失；0的左侧取0，认为造成了稀疏性。
- 缺点：0的左侧取0，导致神经元的梯度为0，且之后该神经元的梯度永远为0.也即不更新数据，神经元死亡了。如果刚开始时，预设的学习步长较大，则很可能相当多的激活值小于0，这时大面积神经元死亡，很可能导致学习失败。
leaky RELU：为了解决RELU的缺陷，我们可以使用 leaky RELU，使0左侧的导数不为0. $f(z)={zz≥01az<0f(z)=\begin{cases} z & z \geq 0 \\ 1 & az<0 \end{cases}$ 一般a取一个较小的值（a的值如果过大，可能会导致梯度爆炸），可以实现一定的单侧抑制、保留部分梯度，能避解决梯度消失。但是增加了参数，增加了人工调参的难度。可以把a当作一个参数来学习。

模型的学习方法：上面说过，神经网络类似于bagging和boosting的集成，故可以像梯度提升一样来学习。但是层数多了后，这样做运算复杂度大。通常使用反向传播的方式来优化目标函数。
反向传播就当作一个复合函数的链式求导算了，哈哈哈（实际上和普通的链式求导还是有一定的区别，这里是矩阵的求导，矩阵求导没有链式法则，可以通过微分的定义来一步一步的推导）
平方损失函数：适合输出为连续且最后一层不为sigmod、softmax的神经网络。
交叉熵损失函数：适合分类场景。
如果是从传统机器学习的经验来看，这是肯定的，平方适合回归、交叉熵适合分类。但是为什么在平方损失的适合场景下加了一条最后一层不为sigmod、softmax呢？输出层的导数为 $(a - y) f^{'} (z)$ 。当z较大时，容易使梯度过小，学习慢。但是交叉熵的导数为 $a_k-1$ ,是线性的，z大小与梯度大小无关，不影响学习速度。