优化器
Adam
梯度下降法参数更新公式:
θt+1=θt−η⋅∇J(θt)
其中,η是学习率,θt 是第 t 轮的参数,J(θt) 是损失函数,∇J(θt)是梯度。
在最简单的梯度下降法中,学习率 η是常数,是一个需要实现设定好的超参数,在每轮参数更新中都不变,在一轮更新中各个参数的学习率也都一样。
为了表示简便,令 gt=∇J(θt),所以梯度下降法可以表示为:
θt+1=θt−η⋅gt
Adam,是梯度下降法的变种,用来更新神经网络的权重。
Adam 更新公式:


默认值为 η=0.001,β1=0.9,β2=0.999,ϵ=1e−8。其中,β1 和 β2 都是接近 1 的数,ϵ 是为了防止除以 0。gt 表示梯度。
前两行是对梯度和梯度的平方进行滑动平均,即使得每次的更新都和历史值相关。
中间两行是对初期滑动平均偏差较大的一个修正,叫做 bias correction,当 t 越来越大时,1−βt1 和 1−βt2 都趋近于 1,这时 bias correction 的任务也就完成了。
最后一行是参数更新公式。
学习率为 η/√v^t+ϵ,每轮的学习率不再保持不变,在一轮中,这是因为 η 除以了每个参数 1/1−β2=1000 轮梯度均方和的平方根。而每个参数的梯度都是不同的,所以每个参数的学习率即使在同一轮也就不一样了。而参数更新的方向也不只是当前轮的梯度 gt了,而是当前轮和过去共 1/1−β1=10 轮梯度的平均。
对 Adam 这些自适应学习率的方法,还应不应该进行 learning rate de

本文介绍了优化器Adam和SGD的工作原理,详细讲解了Adam的参数更新公式及其优势。此外,还探讨了学习率衰减在自适应学习率方法中的应用。同时,文章阐述了交叉熵损失函数的概念,包括信息熵、相对熵(KL散度)和交叉熵在机器学习中的作用。最后,提到了用于评估模型性能的SNR、SI-SNR和SI-SDR指标。
最低0.47元/天 解锁文章
1635

被折叠的 条评论
为什么被折叠?



