神经网络中的正则化与早停策略
1. 神经网络中的正则化
在神经网络中,正则化是控制网络有效复杂度的重要手段。当进行权重变换时,只要按照 $\lambda_1 \to a^{1/2}\lambda_1$ 和 $\lambda_2 \to c^{-1/2}\lambda_2$ 对正则化参数进行重新缩放,某些特性将保持不变。
正则化项 (5.121) 对应一种先验形式:
[p(w|\alpha_1, \alpha_2) \propto \exp\left(-\frac{\alpha_1}{2}\sum_{w\in W_1}w^2 - \frac{\alpha_2}{2}\sum_{w\in W_2}w^2\right)]
需要注意的是,这种形式的先验是不合适的,因为偏置参数不受约束,无法进行归一化。使用不合适的先验会在选择正则化系数和贝叶斯框架下的模型比较中带来困难,因为对应的证据为零。因此,通常会为偏置设置单独的先验,这些先验有自己的超参数,这会打破平移不变性。
我们可以通过从先验中抽样并绘制对应的网络函数,来说明这四个超参数的影响,如图 5.11 所示。
更一般地,我们可以考虑将权重划分为任意数量的组 $W_k$ 的先验:
[p(w) \propto \exp\left(-\frac{1}{2}\sum_{k}\alpha_k\lVert w\rVert^2_k\right)]
其中
[\lVert w\rVert^2_k = \sum_{j\in W_k}w^2_j]
作为这种先验的一个特殊情况,如果我们选择这些组对应于每个输入单元相关的权重集,并针对相应的参数 $\alpha_k
超级会员免费看
订阅专栏 解锁全文
78

被折叠的 条评论
为什么被折叠?



