Regularizing your neural network 神经网络正则化
Logistic regression regularization
先用简单的逻辑回归正则化作为例子,因为神经网络的参数WW是2维的。
无正则
L2L2 正则
J(w,b)=1m∑i=1mL(y^(i)−y(i))+λ2m||w||22J(w,b)=1m∑i=1mL(y^(i)−y(i))+λ2m||w||22
||w||22=∑j=1nxw2j=wTw||w||22=∑j=1nxwj2=wTw- L1L1 正则
J(w,b)=1m∑i=1mL(y^(i)−y(i))+λm||w||1J(w,b)=1m∑i=1mL(y^(i)−y(i))+λm||w||1 - ||w||1=∑j=1nx|w|j||w||1=∑j=1nx|w|j
Neural network regularization
- Frobenius正则(类似L2L2正则)
J(w[1],b[1],⋯,w[l],b[l])=1m∑i=1mL(y^(i),y(i))+12m∑l=1L||w[l]||2FJ(w[1],b[1],⋯,w[l],b[l])=1m∑i=1mL(y^(i),y(i))+12m∑l=1L||w[l]||F2
||w[l]||2F=∑i=1n[l]∑j=1n[l−1](w[l]ij)2||w[l]||F2=∑i=1n[l]∑j=1n[l−1](wij[l])2
相较于无正则化的反向传播,正则化的反向传播在更新WW时,会对其进行权重衰减(weight decay),并下降。
w[l]:=w[l]−αdw[l]=w[l]−αλmw[l]−α(from backpropagation)=(1−αλm)w[l]−α(from backpropagation)w[l]:=w[l]−αdw[l]=w[l]−αλmw[l]−α(from backpropagation)=(1−αλm)w[l]−α(from backpropagation)
- Frobenius正则(类似L2L2正则)