我觉得在L2正则化里面,λ可以是一个变量,一开始λ很小,然后再让λ迅速增大,我的理由是一开始λ很小,神经网络能够收敛于最小值附近(就是能够进入那个坑里面),不至于收到太大的反向位矢的牵引以至于跑出坑的范围,当神经网络接近谷底的时候,再增大λ以达到我们想要的效果。λ可以大概设置成x^4的那种感觉,一开始从0出发比较平坦,之后过了一个节点,训练的样本足够多了,再迅速增大到指定的λ。
第二个体会是,当λ比较大的时候,学习率阿尔法α要相应地减小,因为一开始λ很大,如果取的点离原点也比较远远,那么一步的步长就会很大,那么途中就会错过很多可能的优解,这样的调试是没有意义的,所以增大λ的时候要适当减小学习率。
增大α,也要从后往前跑才有可能收敛
误差不一定能达到正则化之前的标准了,因为加了误差平方和。
越陡峭的函数,在正则化中抗噪声能力越强
从经验来讲,把一个范围是0到1000的数据归一化,和把一个从0到10的数据归一化,他们的学习率精度要求是不一样的。这里肯定要以小的为准。遗传算法中提到过。
λ很大的情况下,噪声对模型收敛的影响也就越大。λ大到一定程度,就算α学习率再怎么小,就算你有一段区间可以有足够大的“拉力”(即梯度)把点扯回来,但是由于噪声的存在,很可能永远找不到收敛点。因为噪声产生的影响是以位矢为单位去计算的,而梯度所产生的方向拉力是以梯度与位矢的差去计算的,很多时候,如果你在“梯度有效区域”内的梯度变化没有足够大(比如最大值能达到当前位矢乘λ的三四倍),那么“有利于收敛的样本”产生的效果很可能就干不过“不利于收敛的样本”。λ的临界值要慢慢试,这也是为什么λ一般是从小往大调节。
若从三维图像上看,取最简单的旋转抛物面模型,把“有利于收敛区域划出来”,在学习率很小的时候,会在“有利于收敛区域”之外的地方波动,但是不会进入“有利于收敛区域”太深,最终收敛于边界附近。(这一段思考没有太大实际意义)
从一元函数角度去思考各个参数的调节方向和规律,低维得出的很多结论完全适用于高维空间。三维情况的话主要思考是怎么调节和怎么运动的。
摘自博客:
让我介绍两个正确结果是复杂模型的例子吧。在 1940 年代物理学家马塞尔施恩(Marcel Schein)宣布发现了一个新的自然粒子。他工作所在的通用电气公司欣喜若狂并广泛地宣传了这一发现。但是物理学家汉斯贝特(Hans Bethe)却怀疑这一发现。贝特拜访了施恩,并且查看了新粒子的轨迹图表。施恩向贝特一张一张地展示,但是贝特在每一张图表上都发现了一些问题,这些问题暗示着数据应该被丢弃。最后,施恩向贝特展示了一张看起来不错的图表。贝特说它可能只是一个统计学上的巧合。施恩说「是的,但是这种统计学巧合的几率,即便是按照你自己的公式,也只有五分之一。」贝特说「但是我们已经看过了五个图表。」最后,施恩说道「但是在我的图表上,每一个较好的图表,你都用不同的理论来解释,然而我有一个假设可以解释所有的图表,就是它们是新粒子。」贝特回应道「你我的学说的唯一区别在于你的是错误的而我的都是正确的。你简单的解释是错的,而我复杂的解释是正确的。」随后的研究证实了大自然是赞同贝特的学说的,之后也没有什么施恩的粒子了1。
另一个例子是,1859 年天文学家勒维耶(Urbain Le Verrier)发现水星轨道没有按照牛顿的引力理论,形成应有的形状。它跟牛顿的理论有一个很小很小的偏差,一些当时被接受的解释是,牛顿的理论或多或少是正确的,但是需要一些小小的调整。1916 年,爱因斯坦表明这一偏差可以很好地通过他的广义相对论来解释,这一理论从根本上不同于牛顿引力理论,并且基于更复杂的数学。尽管有额外的复杂性,但我们今天已经接受了爱因斯坦的解释,而牛顿的引力理论,即便是调整过的形式,也是错误的。这某种程度上是因为我们现在知道了爱因斯坦的理论解释了许多牛顿的理论难以解释的现象。此外,更令人印象深刻的是,爱因斯坦的理论准确的预测了一些牛顿的理论完全没有预测的现象。但这些令人印象深刻的优点在早期并不是显而易见的。如果一个人仅仅是以朴素这一理由来判断,那么更好的理论就会是某种调整后的牛顿理论。
这些故事有三个意义。第一,判断两个解释哪个才是真正的「简单」是一个非常微妙的事情。第二,即便我们能做出这样的判断,简单是一个必须非常谨慎使用的指标。第三,真正测试一个模型的不是简单与否,更重要在于它在预测新的情况时表现如何。
谨慎来说,经验表明正则化的神经网络通常要比未正则化的网络泛化能力更好。因此本书的剩余部分我们将频繁地使用正则化。我举出上面的故事仅仅是为了帮助解释为什么还没有人研究出一个完全令人信服的理论来解释为什么正则化会帮助网络泛化。事实上,研究人员仍然在研究正则化的不同方法,对比哪种效果更好,并且尝试去解释为什么不同的方法有更好或更差的效果。所以你可以看到正则化是作为一种「杂牌军」存在的。虽然它经常有帮助,但我们并没有一套令人满意的系统理解为什么它有帮助,我们有的仅仅是没有科学依据的经验法则。
https://hit-scir.gitbooks.io/neural-networks-and-deep-learning-zh_cn/content/chap3/c3s5ss2.html