5.1神经元模型
本书采用目前使用得最广泛的一种对神经网络的定义,即“神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应”
神经网络中最基本的成分是神经元模型,即上述定义中的简单单元。“M-P神经元模型”,神经元接收到来自其他n个神经元传递过来的信号,这些输入信号通过带权重的连接进行传递,神经元接收到的总输入值将与神经元的阈值进行比较,然后通过“激活函数”处理以产生神经元的输出。实际常用sigmoid函数作为激活函数,典型的sigmoid函数是对数几率函数。
把许多个这样的神经元按一定的层次结构连接起来,就得到了神经网络。可将神经网络视为包含了很多参数的数学模型,这个模型是若干个函数相互嵌套代入而得。
5.2感知机与多层网络
感知机由两层神经元组成,输入层接收外界输入信号后传递给输出层,输出层是M-P神经元,亦称“阈值逻辑单元”。
y
=
f
(
∑
i
w
i
x
i
−
θ
)
y=f(\sum_iw_ix_i-\theta)
y=f(i∑wixi−θ)
其中f为跃阶函数,若自变量大于等于0,则输出为1,小于0则输出0
感知机只有输出层神经元进行激活函数处理,即只拥有一层功能神经元,学习能力非常有限。若两类样本数据线性可分,即存在一个线性超平面能将数据分开,那么感知机的学习过程一定收敛。
要解决非线性可分问题,需考虑使用多层功能神经元。输出层与输入层之间的每层神经元,被称为隐层或隐含层,隐含层和输出层神经元都是拥有激活函数的功能神经元。
常见的神经网络中,每层神经元与下一层神经元互连,神经元之间不存在同层连接,也不存在跨层连接。这样的神经网络结构通常称为“多层前馈神经网络”(multi-layer feedforward neural networks)。其中输入层神经元接收外界收入,隐层和输出层神经元对信号进行加工,最终结果由输出层神经元输出。神经网络的学习过程,就是根据训练数据来调整神经元之间的连接权重以及每个功能神经元的阈值。
5.3误差逆传播算法
多层网络的学习能力比单层感知机强得多。欲训练多层网络,最常用的学习算法是误差逆传播算法(亦称反向传播算法,error BackPropagation, 简称BP)。通常说“BP网络”时,一般是指用BP算法训练的多层前馈神经网络。
BP算法是一个迭代学习算法,基于梯度下降策略,在每一轮迭代中以目标的负梯度方向对参数进行调整。下图给出了BP算法的工作流程。对每个训练样例,BP算法执行以下操作:先将输入示例提供给输入神经元,然后逐层将信号前传,直到产生输出结果;然后计算出层的误差,再将误差逆向传播至隐层神经元,最后根据隐层神经元的误差来对连接权和阈值进行调整。该迭代过程循环进行,直到达到某些停止条件为止,例如训练误差已达到一个很小的值。
上述标准BP算法每次更新参数只针对单个样例,累积BP算法直接针对累积误差最小化,它在读取整个训练集一遍(称为进行了一轮学习)后才对参数进行更新。标准BP算法和累积BP算法的区别类似于随机梯度下降和标准梯度下降的区别
已被证明,只需一个包含足够多神经元的隐含层,多层前馈神经网络就能以任意精度逼近任意复杂度的连续函数。然而,如何设置隐层神经元的个数仍是个未决问题,实际应用中通常靠“试错法”调整。
神经网络具有强大的表示能力,因此神经网络经常遭遇过拟合。有两种策略常用来缓解BP网络的过拟合。一种是“早停” (early stopping): 将数据分为训练集和验证集,训练集用以计算梯度和更新参数,验证集用来估计误差,若训练集误差降低但验证集误差升高,则停止训练,同时返回具有最小验证集误差的参数值。第二种是“正则化”,其基本思想是在误差目标函数中增加一个用于描述模型复杂度的部分,例如参数的平方和,训练过程会偏好比较小的参数,使网络输出更加光滑,从而对过拟合有所缓解。
5.4全局最小和局部极小
神经网络的训练过程可看作一个参数寻优过程,即在参数空间中,寻找一组最优参数使得E最小。
我们常会谈到两种“最优”:局部极小和全局最小。局部极小解是参数空间中的某个点,其领域点的误差函数值均不小于该点的误差函数值。全局最小解是指参数空间中所有点的误差函数值均不小于该点的误差函数值。
显然,参数空间中梯度为0的点,只要其误差函数值小于邻点的误差函数值,就是局部极小点。可能存在多个局部极小值,但却只会有一个全局最小值。
基于梯度的搜索是使用最为广泛的参数寻优方法。在此类方法中,我们从某些初始解出发,迭代寻找某些参数值。每次迭代中,我们先计算误差函数在当前点的梯度,然后根据梯度确定搜索方向。例如,由于负梯度方向是函数值下降最快的方向,因此梯度下降法就是沿着负梯度方向搜索最优解。若误差函数在当前点的梯度为0,则已经达到局部极小,参数的迭代更新就在此停止。假如误差函数只有一个局部极小,那么这个局部极小就是全局最小;然而,如果误差函数有多个局部极小,则不能保证找到的解就是全局最小,我们称参数寻优陷入了局部极小。
现实中,常用以下策略来试图跳出局部极小,从而进一步接近全局最小:
(1)以多组不同参数值初始化多个神经网络,选择其中误差最小的解作为最终参数。
(2)使用模拟退火技术。??
(3)使用随机梯度下降。即便陷入局部极小点,随机梯度下降计算的梯度仍可能不为0,这样就有机会跳出局部极小继续搜索。
需注意的是,上述用于跳出局部极小的技术大多是启发式,理论上尚缺乏保障。