3.3 自适应学习率
Loss可以根据训练的迭代次数不断下降。
但是在梯度下降法中,Grad,作为有大小和方向两个信息的向量,其大小(范数)却随着迭代次数的增加有小范围的波动。(当然根据图上来看波动越来越小)。那么这可能是由于学习率不恰当的原因而反复横跳。Gradient依然很大,但是loss并没有卡到saddle、critical point等。(反思训练过程)
范数是数学中的一个基本概念,定义在赋范线性空间中,满足非负性、齐次性和三角不等式,常用于度量向量空间中向量的长度或大小。在人工智能领域,范数是一种常见的正则化方法,在模型训练中用于防止过拟合。
Training为什么被卡住了?学习率出了小问题。
看上去把learning grade缩小以后就能解决问题。但是实际上可以看出,当坡度很平滑的时候(右下角图横着走)学习率太小了以后无法收敛,无法让训练前进。