L1正则项与稀疏性

本文从几何、微积分和贝叶斯先验三个角度探讨L1正则化导致模型参数稀疏性的原理。解空间形状分析表明,L1约束使最优解倾向于边界,L1范数形成角形区域促进稀疏;微积分角度通过目标函数导数解释,L1正则化使损失函数在非零参数处单调,最小值出现在原点;贝叶斯先验视角,拉普拉斯先验比高斯先验更倾向于参数为0,增强稀疏性。

题目(164):L1正则化使得模型参数具有稀疏性的原理是什么?

回答角度:

  1. 几何角度,即解空间形状
  2. 微积分角度,对带L1限制的目标函数求导
  3. 贝叶斯先验

解空间形状

Step 1. 正则条件和限制条件的等价性
Step 2. L1范数与L2范数的几何形状
Step 3. 如果原问题目标函数的最优解不在解空间内,那么约束条件下的最优解一定是在解空间的边界上。
[复习KKT, complementary slackness]\textcolor{red}{\text{[复习KKT, complementary slackness]}}[复习KKT, complementary slackness]

微积分、函数叠加

损失函数加入L1正则后,目标函数变为J(θ)=L(θ)+c∥θ∥1J(\bm \theta) = L(\bm \theta) + c \|\bm \theta\|_1J(θ)=L(θ)+cθ1。When θ>0\bm \theta>0θ>0, the gradient of c∥θ∥1c \|\bm \theta\|_1cθ1 equals ccc; when θ<0\bm \theta<0θ<0, the gradient of c∥θ∥1c \|\bm \theta\|_1cθ1 equals −c-cc. Therefore, if the gradient of L(θ)L(\bm \theta)L(θ) lies within (−c,c)(-c,c)(c,c), the gradient of J(θ)J(\bm \theta)J(θ) is always negative for θ<0\bm \theta<0θ<0, indicating that J(θ)J(\bm \theta)J(θ) is monotonically decreasing on the left of the origin; its gradient is always positive for θ>0\bm \theta>0θ>0, indicating monotonic increase on the right of the origin. Therefore, the minimum takes place at

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值