一、线性回归
定义
回归(regression)是能为⼀个或多个⾃变量与因变量之间关系建模的⼀类⽅法。在⾃然科学和社会科学领 域,回归经常⽤来表⽰输⼊和输出之间的关系。 线性回 归基于几个简单的假设:⾸先,假设⾃变量x和因变量y之间的关系是线性的,即y可以表示为x中元素的加权 和,这⾥通常允许包含观测值的⼀些噪声;其次,假设任何噪声都⽐较正常,如噪声遵循正态分布。 目标可以表示为特征的加权和,即

转换为矩阵形式

求解
在求解之前,定义模型拟合的度量——损失函数

为了度量模型 在整个数据集上的质量,需计算在训练集n个样本上的损失均值(也等价于求和)

求解的过程即是寻找⼀组参数(w∗ , b∗),以最小化在所有训练样本上的总损失。 线性回归的参数优化较为简单,模型参数具有解析解。
⾸先,将偏置b合并到参数w中,合并⽅法是在包含所有参数的矩阵中附加⼀列。预测问题是最小化。这在损失平⾯上只有 ⼀个临界点,这个临界点对应于整个区域的损失极⼩点。将损失关于w的导数设为0,得到解析解:

二、线性分类
定义
线性分类器透过特征的线性组合来做出分类决定,以达到 此种目的。简言之,样本通过直线(或超平面)可分 。
线性分类器输入为特征向量 ,输出为类别信息。线性分类与线性回归的不同之处在于输出意义不同,前者输出属于某类的概率,后者输出回归具体值,参数意义不同,前者在于得到最佳分类直线,后者在于得到最佳拟合直线,以及维度的不同。
求解
以二分类为例,同时给定样本,其中
只能取0或1。构造误差函数如下

其中,

优化目标为寻找最佳超平面参数,使误差函数
最小。
梯度下降法
由于具有非线性,因而考虑迭代法使得
逐渐趋近于0,即

其中,

多分类回归
k分类的分类函数为

其中,

误差函数(交叉熵损失)取为

简写为,

对应的梯度为

这种回归方式又被称为Softmax回归。
三、神经元模型
人工神经元模型


激活函数
非对称型Sigmoid函数


对称型Sigmoid函数


对称型阶跃函数 (阈值逻辑单元)


四、多层感知机
结构
在线性模型中加⼊⼀个或多个隐藏层来克服线性模型的限制,使其能处理更普遍的函数关系类型。将许多全连接层堆叠在⼀起。每⼀层都输出到上⾯的层,直到⽣成最后的输 出。把前L−1层看作表⽰,把最后⼀层看作线性预测器。这种架构通常称为多层感知机 (multilayer perceptron, MLP) ,如下图所示。

这个多层感知机有4个输⼊,3个输出,其隐藏层包含5个隐藏单元。输⼊层不涉及任何计算,因此使⽤此⽹络 产⽣输出只需要实现隐藏层和输出层的计算。因此,这个多层感知机中的层数为,2为全连 接的。每个输⼊都会影响隐藏层中的每个神经元,⽽隐藏层中的每个神经元⼜会影响输出层中的每个神经元。
计算规则
通过矩阵 来表示n个样本的⼩批量,其中每个样本具有d个输⼊特征。对于具有h个隐藏单元的单隐藏层多层感知机,⽤
表⽰隐藏层的输出,称为隐藏表示。因为隐藏层和输出层都是全连接的,所以隐藏层权重
和隐藏层偏置
以及输出层权重
和输出层偏置
。单隐藏层多层感知机 的输出

五、BP算法
组成
正向传播:输入信号从输入层经隐层,传 向输出层,若输出层得到了期望的输出, 则学习算法结束;否则,转至反向传播。 反向传播:将误差(样本输出与网络输出 之差)按原联接通路反向计算,由梯度下 降法调整各层节点的权值和阈值,使误差 减小。
基本思想
设置初始权系数
为较小的随机非零值;
给定输入/输出样本对,计算网络输出, 完成前向传播;
计算目标函数J。如
, 训练成功,退出;否则转入 4
反向传播计算 由输出层,按梯度下降法将误差反向传播,逐 层调整权值 。
计算规则
考虑迭代算法,设初始权值为, k时刻权值为
, 则使用泰勒级数 展开,有

目标为选择合适的 使得J最小,下面以三层神经网络为例。
前向传播
第l层第i个神经元 (隐藏层)的输出为

只有一层隐藏层时,输出为

误差,第i个误差为
,需要计算的项为
误差反传——输出层
根据链式求导法则

进一步,

误差反传——隐含层

从而,

令

有

总结
从输出层出发,有

对于隐含层有,

更新方式为

其中,。
六、优化算法
随机梯度下降

病态曲率:上图为损失函数轮廓。在进入以蓝色 标记的山沟状区域之前随机开始。 颜色实际上表示损失函数在特定点 处的值有多大,红色表示最大值, 蓝色表示最小值。我们想要达到最 小值点,为此但需要我们穿过山沟 。这个区域就是所谓的病态曲率。
为解决上述问题,提出了动量法,算法描述如下

在进行参数更新的时候会将之前的速度考虑进来,保留之前更新的方向,利用当前梯度微调最终更新方向。
自适应梯度
特点
参数自适应变化:具有较大偏导的参数相应有一个较大的学习 率,而具有小偏导的参数则对应一个较小的学习率 。每个参数的学习率会缩放各参数反比于其历史梯度 平方值总和的平方根。
学习率是单调递减的,训练后期学习率过小会导致训练困难, 甚至提前结束 。
需要设置一个全局的初始学习率。
算法描述

RMSProp
特点
解决 AdaGrad 方法中学习率过度衰减的问题,使用指数衰减平均以丢弃遥远的历史,使其能够快 速收敛;此外,RMSProp 还加入了超参数 𝜌 控制衰减速率 。
算法描述

Adam
特点
Adam 在 RMSProp 方法的基础上更进一步, 除了加入历史梯度平方的指数衰减平均(𝑟)外, 还保留了历史梯度的指数衰减平均(𝑠),相当于动量。
算法描述
