L1正则化、L2正则化的公式如下
min w L 1 ( w ) = min w f ( w ) + λ n ∑ i = 1 n ∣ w i ∣ min w L 2 ( w ) = min w f ( w ) + λ 2 n ∑ i = 1 n w i 2 \min_wL_1(w)=\min_w f(w)+\frac{\lambda}{n}\sum_{i=1}^n|w_i|\\ \min_wL_2(w)=\min_wf(w)+\frac{\lambda}{2n}\sum_{i=1}^nw_i^2 wminL1(w)=wminf(w)+nλi=1∑n∣wi∣wminL2(w)=wminf(w)+2nλi=1∑nwi2
从优化问题的视角来看
min x L ( w ) < = > min w f ( w ) s . t . ∑ i = 1 n ∣ w i ∣ < C \min_xL(w)<=> \min_w f(w)\\ s.t. \sum_{i=1}^n|w_i|<C xminL(w)<=>wminf(w)s.t.i=1∑n∣wi∣<C
L1正则的限制条件,在坐标轴上显示则是一个正方形,与坐标轴的交点分别是(0,C),(C,0),(0,-C),(-C,0)
L2正则的限制条件,在坐标轴上显示则是一个圆,与坐标轴的交点分别是(0,C),(C,0),(0,-C),(-C,0)

从梯度视角来看
∂ L 1 ( w ) ∂ w i = ∂ f ( w ) ∂ w i + λ n s i g n ( w i ) w i ′ = w i − η ∂ L 1 ( w ) ∂ w i w i ′ = w i − η ∂ f ( w ) ∂ w i − η λ n s i g n ( w i ) \frac{\partial L_1(w)}{\partial w_i}=\frac{\partial f(w)}{\partial w_i}+\frac{\lambda}{n}sign(w_i)\\ w_i^{'}=w_i - \eta \frac{\partial L_1(w)}{\partial w_i}\\ w_i^{'}=w_i - \eta \frac{\partial f(w)}{\partial w_i} - \eta \frac{\lambda}{n}sign(w_i) ∂wi∂L1(w)=∂wi∂f(w)+nλsign(wi)wi′=wi−η∂wi∂L

本文详细比较了L1和L2正则化的数学形式、梯度更新特性,解释了它们为何分别对应拉普拉斯和高斯先验。通过最大后验概率,阐述了两者在机器学习中作为权重分布的体现。
最低0.47元/天 解锁文章
43万+

被折叠的 条评论
为什么被折叠?



