算法优化
调参
1、在调整超参数时,其中最终要的是
α
α
,其次是动量
β
β
、隐藏层单元以及mini-batch,之后还可以调整层数跟学习率衰减
2、在深度学习中,随机选择参数的值可能更好一些,因为事先并不知道哪个参数相对比较重要,另一个比较重要的原则是从粗略到精细,到大体确定了超参数的范围,再在这个范围内进行随机取值,获得更加精细的参数
3、当确定了参数的范围,对其进行随机取值时使用对数轴比较合理,这样可以均匀取到各个范围的值
4、确定参数进行观察时有两种方式,一种是计算能力小,这就需要我们随时观察代价函数的下降进行调整参数,另一种是计算能力大,这时可以训练参数取不同值的模型,然后同时训练观察好坏
batch归一化
此种算法类比的是将输入归一化可以加快训练过程,此种算法归一化的是隐藏层的输入特征,通过计算每一层z的均值、方差,将其标准化: znorm=z−μσ2+ε√ z n o r m = z − μ σ 2 + ε ,然而,隐藏层或许并不需要这样的分布,所以利用等式 z~=γznorm+β z ~ = γ z n o r m + β 重新构造,均值和方差可以是我们想要的任意值。这种方法起作用的原因是其内在的减弱了当前层对前一层的依赖,可以跟dropout算法一起使用,这种算法也有副作用,那就是是有轻微的正则作用。
softmax
这是一个分类器,其实质是输入一个向量,输出一个同样大小的向量,其中的值代表分类的概率。
t=ez[l]
t
=
e
z
[
l
]
y^=t∑ti
y
^
=
t
∑
t
i