-通过正则化消除过度拟合,下面为公式介绍和解释
- J(w,b)=1m∑i=1mL(y^(i),y(i))+λ2m∣∣w∣∣22\frac{1}{m}\sum_{i=1}^{m}L(\hat{y}^{(i)},y^{(i)})+\frac{\lambda}{2m}||w||{^2_2}m1∑i=1mL(y^(i),y(i))+2mλ∣∣w∣∣22
- L2L_2L2正则化: ∣∣w∣∣22=∑j=1nxwj2=wTw||w||{^2_2}=\sum_{j=1}^{n_x} {w_j}^2=w^Tw∣∣w∣∣22=∑j=1nxwj2=wTw,
∣∣w∣∣22||w||{^2_2}∣∣w∣∣22被称为参数W的L2L_2L2范数 - 只对W进行正则化是因为W是一个高维参数,基本上包含了所有维度
- λ\lambdaλ是正则化参数,应该较大,避免过拟合,即避免数据权值矩阵过大
- 放在多层网络中变成了“ +λ2m∑l=1L∣∣w[l]∣∣F2+\frac{\lambda}{2m}\sum_{l=1}^{L}||w^{[l]}||{^2_F}+2mλ∑l=1L∣∣w[l]∣∣F2”
L为层
∣∣W[l]∣∣F2=∑i=1n[l−1]∑j=1n[l](wij[l])2w:(n[l−1],n[l])||W^{[l]}||{^2_F}=\sum_{i=1}^{n^{[l-1]}}\sum_{j=1}^{n^{[l]}}(w{^{[l]}_{ij}})^2\qquad w:(n^{[l-1]},n^{[l]})∣∣W[l]∣∣F2=∑i=1n[l−1]∑j=1n[l](wij[l])2w:(n[l−1],n[l])
“Frobenius norm” 弗罗贝尼乌斯范数