卷积神经网络的调参技巧2

最新推荐文章于 2023-03-30 19:16:39 发布

原创最新推荐文章于 2023-03-30 19:16:39 发布 · 810 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #深度学习 #人工智能

卷积神经网络的调参技巧2

激活函数调参技巧

1.对于稀疏数据，使用学习率自适应方法
2.随机梯度下降（SGD）,通常训练时间长，最终效果比较好，但需要好的初始化和learning_rate
3.需要训练较深复杂的网络且需要快速收敛的时候，推荐使用Adam，并且设一个比较小的学习率
4.adagrad。RMSprop，Adam是比较相近的算法。在相似的情况表现差不多。其他另外2个比Adam比较不稳定

在这里插入图片描述

sigmoid
1.输入非常大或非常小时，没有梯度
2.输出均值非0（值为0.5）
影响：归一化的时候，设置值为0到1之间，不管你输入什么，经过sigmoid时候，输出的值肯定不是0，而时 0.5。意味着，你第一层时归一化好的，而其他不是归一化好的。
3.exp计算复杂
4.梯度消失

tanh
1.依旧没有梯度
2.输出均值为0
3.计算复杂

relu
1.不饱和（梯度不会太小）
2.计算量小
3.收敛速度快
4.输出均值非0（x大于0，则输出x，x小于等于0，则输出0）
缺点：一个非常大梯度流过神经元，不会再对数据有激活现象（例如负数），然后这个神经元就变成死的神经单元
想要解决这个缺点，可以使用leak-relu

ELU
1.均值更接近于0
2.小于0时，计算量大

maxout
1.relu的泛华版
2.没有dead relu
3.参数double

使用技巧：
1.relu：小心设置learning_rete值
2.不要使用sigmoid
3.使用relu时，考虑leak-relu，maxout，ELU
4.可以试试tanh，但不要期望过大

网络初始化技巧

方法1：
全部设置为0：在单层网络可以，效果就是，梯度可以直接计算在参数上，然后就可以直接更新参数了
在多层网络是不可行的。会使梯度消失（链式法则）

如何分析初始化效果好不好？
1.查看初始化后各层的激活值分布，激活值就是神经元经过激活函数的输出，如果激活值的分布在固定的区间内，例如归一化好的-1到1之间或 0到1 之间，那么就是一个好的初始化结果；如果集中在某个值上就是不好的结果。是因为各个参数是各不相同的，所以希望每个参数都有比较好的梯度更新
2.均值为0 ，方差为0.02的正态分布初始化：relu，tanh-高层均值为0，没有梯度：原因是方差太小了；方差比较大，激活值会集中在-1到1之间