深度学习调参与技巧-优快云博客

本文链接：https://blog.youkuaiyun.com/yeyustudy/article/details/81259616

算法优化

调参

1、在调整超参数时，其中最终要的是 $\alpha$ ，其次是动量 $\beta$ 、隐藏层单元以及mini-batch，之后还可以调整层数跟学习率衰减
2、在深度学习中，随机选择参数的值可能更好一些，因为事先并不知道哪个参数相对比较重要，另一个比较重要的原则是从粗略到精细，到大体确定了超参数的范围，再在这个范围内进行随机取值，获得更加精细的参数
3、当确定了参数的范围，对其进行随机取值时使用对数轴比较合理，这样可以均匀取到各个范围的值
4、确定参数进行观察时有两种方式，一种是计算能力小，这就需要我们随时观察代价函数的下降进行调整参数，另一种是计算能力大，这时可以训练参数取不同值的模型，然后同时训练观察好坏

batch归一化

此种算法类比的是将输入归一化可以加快训练过程，此种算法归一化的是隐藏层的输入特征，通过计算每一层z的均值、方差，将其标准化： ${z_{norm}} = \frac{{z - \mu }}{{\sqrt {{\sigma ^2} + \varepsilon } }}$ ，然而，隐藏层或许并不需要这样的分布，所以利用等式 $\tilde z = \gamma {z_{norm}} + \beta$ 重新构造，均值和方差可以是我们想要的任意值。这种方法起作用的原因是其内在的减弱了当前层对前一层的依赖，可以跟dropout算法一起使用，这种算法也有副作用，那就是是有轻微的正则作用。