目标函数可是是实数、离散或向量。使用计算单元模拟神经元,计算单元有多输入和不变的单值输出。
适用实例是通过属性值对描述事件的;目标函数复杂;数据有误;学习时间长;求值迅速。
结构:感知器、线性单元、sigmoid(s型的)单元。
感知器:输入实数值,输出其线性组合是否大于某值(1/-1)。由此规定假设空间,该空间是线性可分的。
算法六:感知器训练法则,使用感知器测试训练用例,一旦出错则更新系数。反复使用直到收敛。更新的单位是xi的倍数。每次应用在一个训练用例上。根据输出调整。
算法七:梯度下降,目标是LMS,更新的单位是最快下降方向的倍数。每次应用在整个训练集上。根据输入调整。
算法八:Delta法则,使用增量梯度下降。增量梯度下降每次应用在单个用例上。
sigmoid单元:使用logistic函数将输入转化成[-1,1]的连续输出。
算法九:反向传播算法,使用sigmoid代替感知器,分层网络的学习。目标是通过logistic函数和匿名节点构造出假设的非线性描述。使用计算出来的输出调整参数。由于数据向上传播导致误差增大,所以误差反向传播。下层的误差是上层相关节点误差的加权平均。而误差本身的计算基于sigmoid的梯度下降。可使用冲量项增加收敛速度。可能收敛到极小值。归纳偏置在于假设分隔曲面是连续的。容易过度拟合。
该算法极像 我昨天想到的 对计算机模拟人脑的一个小想法 ,二者的区别在于:1、层内数据的相互联系;2、计算中的反馈机制;3、输出的方法不同。基本可以认为是一致的。