第五章 神经网络
神经网络(neural networks)方面的研究很早就已出现,今天 “神经网络” 已是一个相当大的、多学科交叉的学科领域.各相关学科对神经网络的定义多种多样,本书采用目前使用得最广泛的一种,即 “神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应” [Kohonen, 1988 ]。我们在机器学习中谈论神经网络时指的是“神经网络学习”,或者说,是机器学习与神经网络这两个学科领域的交叉部分。
5.1 神经元模型
神经网络中最基本的成分是神经元(neuron)模型,即上述定义中的“简单单元”。在生物神经网络中,每个神经元与其他神经元相连,当它 “兴奋”时, 就会向相连的神经元发送化学物质,从而改变这些神经元内的电位;如果某神经元的电位超过了一个“阈值”(threshold),那么它就会被激活,即 “兴奋” 起来,向其他神经元发送化学物质。
M-P神经元模型:将上述情形抽象为图5.1所示的简单模型。在这个模型中,神经元接收到来自几个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接(connection)进行传递,神经元接收到的总输入值将与神经元的阈值进行比较,然后通过“激活函数”(activation function)处理以产生神经元的输出。若前者大于后者,神经元兴奋,输出1;反之,神经元抑制,输出0。
5.2 感知机与多层网络
感知机模型:
感知机只能用于线性可分的数据集,是分类模型。
感知机学习策略:
感知机学习算法:
感知机(Perceptron)由两层神经元组成。只有输出层神经元进行激活函数处理,即只拥有一层功能神经元(functional neuron),其学习能力非常有限。
多层前馈神经网络
要解决非线性可分问题,需考虑使用多层功能神经元,这样的网络被称为多层前馈神经网络。
5.3 误差逆传播算法
多层网络的学习能力比单层感知机强得多. 欲训练多层网络,简单感知机学习规则显然不够了,需要更强大的学习算法.误差逆传播(简称 BP)算法就是其中最杰出的代表,它是运今最成功的神经网络学习算法。
5.4 全局最小与局部极小
5.5 其他常见神经网络
神经网络模型、算法繁多,本节不能详尽描述.
5.6 深度学习
深度学习是深层的神经网络,是机器学习的子集。
以往机器学习时,描述样本的特征要人类设计,这称为“特征工程”,特征的好坏对泛化性能有重要影响,设计出好特征并非易事,而对于深度学习来说,“特征工程”会由神经网络自动完成,即让神经网络进行“特征学习”。