计算机视觉系列二（全连接神经网络）北京邮电大学-鲁鹏

最新推荐文章于 2024-03-13 13:58:13 发布

peacefairy

最新推荐文章于 2024-03-13 13:58:13 发布

阅读量409

点赞数

分类专栏：生活中的小问题记录

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/peacefairy/article/details/115425239

版权

生活中的小问题记录专栏收录该内容

19 篇文章

订阅专栏

全连接神经网络

1、概览

在这里插入图片描述

2、分类模型

2.1 多层感知机

全连接神经网络级联多个米那换来实现输入到输出的映射。

因为线性只能解决线性可分的问题，所以引入全连接来解决非线性可分的问题。

在线性分类器中，表示了每个类别的模板
在非线性分类器中，自己可以定义多个模板，来充分的表示输入。

2.2 激活函数

常用的激活函数及其优缺点。
在这里插入图片描述

3、损失函数

3.1 softmax与交叉熵

softmax可以把分数数值变换为概率，由于分数可能为负数，所以采用了指数幂的方式来计算各个分数的占比。

有了各个类别的概率，引入了交叉熵的概念

在这里插入图片描述
我理解的是，有了新的假设，我们就要采取新的不同的处理手段，因为之前多分类支撑向量机没有真实的得分情况。

在这里插入图片描述

熵表示信息量的大小，对于十分确定的事，我们得到的信息量就极少，对于上述案例来说，我们已经知道了真实的概率，那么我们的熵就应该为0，带入到熵的式子中，也可以知道，我们从[1,0,0]中获得信息为0

但是相对熵（KL散度）才是度量两个分布之间的不相似性。

通过公式的推导，也就是上图三者之间的关系，我们可以带入熵的值为0，那么对于该事件相对熵的值就等于交叉熵的值，那么我们就可以将其作为我们相似性的评判标准。

在这里插入图片描述

3.2 对比多分类支撑向量机损失

在这里插入图片描述

在这里插入图片描述

通过计算，我们可以发现，交叉熵的损失仍有值，也就表示我们还有优化前进的理由。而多分类支撑向量机只要保证正确分类的得分够大就可以了。

老师又指出了一个例子，坑你你发现训练过程中，精度一直上升，但是loss不变，可能的原因是？

每个类别的得分十分平均，而正确的分类概率只可能大了一点点，就表示分类正确了，而他们之间的损失计算却是相差不了多少。

0.35	0.33	0.32
0.333	0.333	0.334

当这样的类别概率情况下，第一组分类正确0.35在其中最大，而第二组分类错误，但第一个分类的损失相差无几（-log（0.35）与-log（0.333）

4、优化算法

4.1 计算图与反向传播

让我们知道信息是如何正向和反向传播的，以及传播的方式

计算图是一种有向图，它用来表达输入、输出以及中间变量之间的计算关系，图中的每个节点对应着一种数学运算。

在这里插入图片描述

4.2 激活函数

讨论了常用的激活函数，以及其优缺点
针对sigmoid梯度消失的问题，引入了ReLU的方式，ReLU（当输入大于0时，局部梯度永远不会为0，比较有利于梯度流的传递）

针对ReLU，又引入了Leaky ReLU，其基本没有“死区”，因为对于ReLU来说，输入小于0就直接“砍掉”，没有向后传播的机会了。由于函数在0处没有导数，就导致梯度永远不会为0，也就导致基本不会有不激活的情况。

什么是梯度爆炸，怎么解决梯度爆炸？
在这里插入图片描述

尽量选择ReLU函数或者Leakly ReLU函数，相对于Sigmoid/tanh，
ReLU函数或者Leakly ReLU函数会让梯度流更加顺畅，训练过程收敛
得更快。

4.3 动量法与自适应梯度

在这里插入图片描述

在这里插入图片描述

RMSprop和Adagrad的区别在哪儿？

两者都是，针对不同的方向的梯度用不同的步子来调节权重更新的情况。RMSprop是对Adagrad的改进，由于Adagrad中梯度的不断累积，导致梯度变大，而失去了对学习率的调整。RMSProp这是对当前梯度附近梯度的积累。

5、训练过程

5.1 权重初始化

在训练过程中，要保证正向和反向的传播能够充分的流通，所以权重初始化和批归一化都是对该问题的解决，都是为了保证传播过程中，神经元的激活。
在这里插入图片描述
当前比较好用的初始化方式是Xavier初始化（N_{(0,**1/N)**）和he初始化（MSRA）}(0,2/N)

5.2 批归一化

BN通过将每次的激活值都调整为0均值1方差的正态分布，来保证激活状态，同时在训练过程中学习对该分布平移和缩放的γ和β，来尽量的表示原数据的分布状态。在测试过程中使用的就是训练过程中使用的归一化值。

5.3 欠拟合，过拟合，Dropout

在这里插入图片描述

其中约束模型权重，权重正则化的原理是：正则化为了分散权值，获取更多的特征来表示输入，使模型降低复杂的分界面，惩罚那些权重过大的值，以更好地泛化。

还有随机失活Dropout，在训练过程中以概率p随机的对神经元进行失活（不让该神经元参加训练）。老师总结了三个方面来分析这样做的意义：
在这里插入图片描述
解释三，利用集成学习的思路，每次训练我们都得到了不同的模型，最后输出的结果所有模型的均值。
Dropout实现：生成一个Mask（和神经元同等规格），mask中的值为该神经元失活的概率，将神经元和mask相乘就可以获得参加下次训练的神经元。

5.4 模型正则与超参数调优

超参数：

网络结构-隐藏层神经元的个数，网络层数，非线性单元选择
优化相关-学习率，dropout的比率，正则化的强度，优化器中的各种衰减率

在这里插入图片描述

针对log空间，对数标尺：对数标尺坐标轴，也就是每10倍在坐标轴标记一次，这样搜索的几率更平等了。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。