某猪场的笔试题问到了深度学习中的优化算法,由于准备不足扑街了,后来补了一下这方面的知识,整理如下: 基本算法 随机梯度下降(SGD) 实践中,一般会线性衰减学习率直到第 τ 次迭代: ϵk=(1−α)ϵ