全连接神经网络
1、概览
2、分类模型
2.1 多层感知机
全连接神经网络级联多个米那换来实现输入到输出的映射。
因为线性只能解决线性可分的问题,所以引入全连接来解决非线性可分的问题。
在线性分类器中,表示了每个类别的模板
在非线性分类器中,自己可以定义多个模板,来充分的表示输入。
2.2 激活函数
常用的激活函数及其优缺点。
3、损失函数
3.1 softmax与交叉熵
softmax可以把分数数值变换为概率,由于分数可能为负数,所以采用了指数幂的方式来计算各个分数的占比。
有了各个类别的概率,引入了交叉熵的概念
我理解的是,有了新的假设,我们就要采取新的不同的处理手段,因为之前多分类支撑向量机没有真实的得分情况。
熵表示信息量的大小,对于十分确定的事,我们得到的信息量就极少,对于上述案例来说,我们已经知道了真实的概率,那么我们的熵就应该为0,带入到熵的式子中,也可以知道,我们从[1,0,0]中获得信息为0
但是相对熵(KL散度)才是度量两个分布之间的不相似性。
通过公式的推导,也就是上图三者之间的关系,我们可以带入熵的值为0,那么对于该事件相对熵的值就等于交叉熵的值,那么我们就可以将其作为我们相似性的评判标准。
3.2 对比多分类支撑向量机损失
通过计算,我们可以发现,交叉熵的损失仍有值,也就表示我们还有优化前进的理由。而多分类支撑向量机只要保证正确分类的得分够大就可以了。
老师又指出了一个例子,坑你你发现训练过程中,精度一直上升,但是loss不变,可能的原因是?
每个类别的得分十分平均,而正确的分类概率只可能大了一点点,就表示分类正确了,而他们之间的损失计算却是相差不了多少。
0.35 | 0.33 | 0.32 |
---|---|---|
0.333 | 0.333 | 0.334 |
当这样的类别概率情况下, 第一组分类正确0.35在其中最大,而第二组分类错误,但第一个分类的损失相差无几(-log(0.35)与-log(0.333)
4、优化算法
4.1 计算图与反向传播
让我们知道信息是如何正向和反向传播的,以及传播的方式
计算图是一种有向图,它用来表达输入、输出以及中 间变量之间的计算关系,图中的每个节点对应着一种数学 运算。
4.2 激活函数
讨论了常用的激活函数,以及其优缺点
针对sigmoid梯度消失的问题,引入了ReLU的方式,ReLU(当输入大于0时,局部梯度永远不会为0,比较有利于梯度流的传递)
针对ReLU,又引入了Leaky ReLU,其基本没有“死区”,因为对于ReLU来说,输入小于0就直接“砍掉”,没有向后传播的机会了。由于函数在0处没有导数,就导致梯度永远不会为0,也就导致基本不会有不激活的情况。
什么是梯度爆炸,怎么解决梯度爆炸?
尽量选择ReLU函数或者Leakly ReLU函数,相对于Sigmoid/tanh,
ReLU函数或者Leakly ReLU函数会让梯度流更加顺畅,训练过程收敛
得更快。
4.3 动量法与自适应梯度
RMSprop和Adagrad的区别在哪儿?
两者都是,针对不同的方向的梯度用不同的步子来调节权重更新的情况。RMSprop是对Adagrad的改进,由于Adagrad中梯度的不断累积,导致梯度变大,而失去了对学习率的调整。RMSProp这是对当前梯度附近梯度的积累。
5、训练过程
5.1 权重初始化
在训练过程中,要保证正向和反向的传播能够充分的流通,所以权重初始化和批归一化都是对该问题的解决,都是为了保证传播过程中,神经元的激活。
当前比较好用的初始化方式是Xavier初始化(N(0,**1/N)**)和he初始化(MSRA)(0,2/N)
5.2 批归一化
BN通过将每次的激活值都调整为0均值1方差的正态分布,来保证激活状态,同时在训练过程中学习对该分布平移和缩放的γ和β,来尽量的表示原数据的分布状态。在测试过程中使用的就是训练过程中使用的归一化值。
5.3 欠拟合,过拟合,Dropout
其中约束模型权重,权重正则化的原理是:正则化为了分散权值,获取更多的特征来表示输入,使模型降低复杂的分界面,惩罚那些权重过大的值,以更好地泛化。
还有随机失活Dropout,在训练过程中以概率p随机的对神经元进行失活(不让该神经元参加训练)。老师总结了三个方面来分析这样做的意义:
解释三,利用集成学习的思路,每次训练我们都得到了不同的模型,最后输出的结果所有模型的均值。
Dropout实现:生成一个Mask(和神经元同等规格),mask中的值为该神经元失活的概率,将神经元和mask相乘就可以获得参加下次训练的神经元。
5.4 模型正则与超参数调优
超参数:
- 网络结构-隐藏层神经元的个数,网络层数,非线性单元选择
- 优化相关-学习率,dropout的比率,正则化的强度,优化器中的各种衰减率
针对log空间,对数标尺:对数标尺坐标轴,也就是每10倍在坐标轴标记一次,这样搜索的几率更平等了。