令L(w)=l0(w)+λ∑∣wi∣L(w)=l_0(w)+\lambda\sum|w_i|L(w)=l0(w)+λ∑∣wi∣,
则∂L(w)∂wi=∂l0(w)∂wi+λsign(wi)\dfrac{\partial L(w)}{\partial w_i}=\dfrac{\partial l_0(w)}{\partial w_i}+\lambda sign(w_i)∂wi∂L(w)=∂wi∂l0(w)+λsign(wi)。
由于λsign(wi)\lambda sign(w_i)λsign(wi)在0的左右两侧分别取值为−λ-\lambda−λ和λ\lambdaλ,
所以当∣λ∣|\lambda|∣λ∣足够大时(>∣∂l0(w)∂wi∣>|\dfrac{\partial l_0(w)}{\partial w_i}|>∣∂wi∂l0(w)∣),∂L(w)∂wi\dfrac{\partial L(w)}{\partial w_i}∂wi∂L(w)在0的左右两侧将异号,则0是L(w)L(w)L(w)的一个局部极小值点,在凸优化中即是一个全局最小值点。
L1正则化进行稀疏选择的数学解释
最新推荐文章于 2025-11-13 14:45:31 发布
探讨了正则化项如何影响损失函数L(w),并解析了在特定条件下0成为L(w)局部极小值的过程。通过计算偏导数∂L(w)/∂wi,揭示了λ参数对权重调整的影响,当λ足够大时,0点成为全局最小值。
1452

被折叠的 条评论
为什么被折叠?



