关于《深度学习》书中,第十一章中学习率过低会导致训练误差高位扰动的问题的猜想
首先,凸问题中不存在,证明在二阶偏导的情况下,即数据中有一个明显的误差下降方向时,不会造成这种情况。
这里就得到了两个条件,非凸且学习率过低。
过低,低到什么程度,我们大胆猜测是由于低于了数据的扰动误差,即观测误差,或者是不可避免误差,这个误差可能是贝叶斯误差,在这个范围内,非凸函数的不断震荡,使得网络在一个局部区间内同样发生震荡,而且由于扰动过小,无法在真实空间内前进,而是在一个误差空间内不断游走。
不知道写这个东西的时候,有没有论文解决这个问题,但还是写了下来。
关于《深度学习》书中,第十一章中学习率过低会导致训练误差高位扰动的问题的猜想
