(《机器学习》完整版系列)第11章 特征选择与稀疏学习——11.4 嵌入式选择与L1正则化(将特征选择嵌入到优化算法中,以LASSO算法为代表)

嵌入式选择通过将特征选择融入优化过程,尤其是L1正则化的LASSO算法,可以迫使某些特征权重为0,从而实现“删维”和降低过拟合风险。L1正则化的直观解释是在损失曲线与正方形(顶点在坐标轴上)相切时找到最优解,导致稀疏解。通过近端梯度下降(PGD)求解L1正则化问题,能有效寻找这种稀疏特征表示。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

嵌入式选择:将特征选择嵌入到优化算法中,是隐式地选择。
LASSO:让算法逼迫一些属性的权重为0,即最小化 L 0 L_0 L0,但实际上是通过最小化 L 1 L_1 L1来近似实现。 这时,就有两个优化目标:一是原来的最小化损失函数;二是新增加的最小化 L 1 L_1 L1,其形式同引入正则化得到的式子,而正则化又有助于降低过拟合的风险。
算法LASSO一举两得:降低过似合风险和得到“稀疏”解。

嵌入式选择与 L 1 L_1 L1正则化

有趣的距离与范数中,我们定义了 L 0 , L 1 , L 2 L_0,L_1,L_2 L0,L1,L2等范数。
假定以某种方法迫使 w \boldsymbol{w} w的一些分量为0(最小化 L 0 L_0 L0),非零分量只有 d ′ d' d个,这时
w T x = ( w 1 , w 2 , ⋯   , w d ) ( x 1 ; x 2 ; ⋯   ; x d ) = ( w 1 , w 2 , ⋯   , w d ′ , 0 , ⋯   , 0 ) ( x 1 ; x 2 ; ⋯   ; x d ′ ; x d ′ + 1 ; ⋯   ; x d ) (假定 w 的非零分量为 d ′ 个且排在前面) = ( w ′ T , 0 T ) ( x ′ ; ∗ ) = w ′ T x ′ \begin{align} \boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}&=(w_1,w_2,\cdots,w_d)(x^1;x^2;\cdots;x^d)\notag\\ &=(w_1,w_2,\cdots,w_{d'},0,\cdots,0)(x^1;x^2;\cdots;x^{d'};x^{d'+1};\cdots;x^d)\notag\\ &\qquad \text{(假定$\boldsymbol{w}$的非零分量为$d'$个且排在前面)}\notag\\ &=({\boldsymbol{w}'}^{\mathrm{T}},{\boldsymbol{0}}^{\mathrm{T}})(\boldsymbol{x}';\boldsymbol{*})\notag\\ &={\boldsymbol{w}'}^{\mathrm{T}}\boldsymbol{x}' \tag{11.11} \end{align} wTx=(w1,w2,,wd)(x1;x2;;xd)=(w1,w2,,wd,0,,0)(x1;x2;;xd;xd+1;;xd)(假定w的非零分量为d个且排在前面)=(wT,0T)(x;)=wTx(11.11)
即“ x \boldsymbol{x} x作用于 w \boldsymbol{w} w”等价于“ x ′ \boldsymbol{x}' x作用于 w ′ \boldsymbol{w}' w”,而 x ′ = ( x 1 ; x 2 ; ⋯   ; x d ′ ) \boldsymbol{x}'=(x^1;x^2;\cdots;x^{d'}) x=(x1;x2;;xd),只有 d ′ d' d个属性,这就实现有“删维”的目的。 即它可以通过 w \boldsymbol{w} w的“稀疏”(由于非零分量不一定排在前面,而是零星地分布,故称为“稀疏”)来实现 x \boldsymbol{x} x的“删维”。

嵌入式选择是隐式地选择(算法逼迫一些属性的权重为0,即最小化 L 0 L_0 L0),但实际上是通过最小化 L 1 L_1 L1来近似实现。 这时,就有两个优化目标:一是原来的最小化损失函数;二是新增加的最小化 L 1 L_1 L1。 将二者合在一起进行优化,即为【西瓜书式(11.7)】,称为LASSO。 其形式同引入正则化得到的式子,而正则化又有助于降低过拟合的风险。 因此,算法LASSO一举两得:降低过似合风险和得到“稀疏”解(实现了式(11.11)的效果)。

【西瓜书图11.2】在二维情形下,以直观的方式解释了:

  • L 2 L_2 L2正则化(岭回归)的最优点位于损失曲线(圆)与 ∣ ∣ w ∣ ∣ 2 2 = c ||\boldsymbol{w}||^2_2=c ∣∣w22=c(圆)相切处。
  • L 1 L_1 L1正则化(LASSO)的最优点位于损失曲线(圆)与 ∣ ∣ w ∣ ∣ 1 = c ||\boldsymbol{w}||_1=c ∣∣w1=c(正方形)相切处,而该正方形是一种特殊的正方形:顶点在坐标轴上( ∣ w 1 ∣ + ∣ w 2 ∣ = c |w_1|+|w_2|=c w1+w2=c),故最优点在坐标轴上,即另一坐标为0,这即为“稀疏”解。

【西瓜书式(11.7)】是基于线性回归目标【西瓜书式(11.5)】构造的 L 1 L_1 L1正则化,推广到一般,设优化目标函数为 f ( x ) f(\boldsymbol{x}) f(x),则 L 1 L_1 L1正则化为【西瓜书式(11.8)】。

通常用近端梯度下降(PGD)求解 L 1 L_1 L1正则化问题。
与梯度下降法不同的是:这里不是对整体( f ( x ) + λ ∣ ∣ x ∣ ∣ 1 f(\boldsymbol{x})+\lambda|| \boldsymbol{x}||_1 f(x)+λ∣∣x1)使用泰勒展式,而是对其中的一部分(即 f ( x ) f(\boldsymbol{x}) f(x))使用泰勒展式,得到【西瓜书式(11.10)】,如是就有了图11.3的求值过程(图中的式子编号均为【西瓜书中的式子编号】)。
图11.3 近端梯度下降(PGD)

图11.3 近端梯度下降(PGD)

图11.3 中,从【西瓜书式(11.13)】求解 x k + 1 \boldsymbol{x}_{k+1} xk+1如下:
L 2 ∣ ∣ x − z ∣ ∣ 2 2 + λ ∣ ∣ x ∣ ∣ 1 = L 2 ∑ i = 1 d [ x i − z i ] 2 + λ ∑ i = 1 d ∣ x i ∣ = L 2 ∑ i = 1 d [ ( x i − z i ) 2 ± 2 L λ x i ] = L 2 ∑ i = 1 d [ ( x i − z i ) 2 ± 2 λ L ( x i − z i ) + ( λ L ) 2 + c o n s t ] = L 2 ∑ i = 1 d [ ( x i − z i ± λ L ) 2 + c o n s t ] = L 2 ∑ i = 1 d [ ( x i − z i ± λ L ) 2 ] + c o n s t \begin{align} &\quad \frac{L}{2}||\boldsymbol{x}-\boldsymbol{z}||_2^2+\lambda ||\boldsymbol{x}||_1\notag\\ &=\frac{L}{2}\sum_{i=1}^d\left[x^i-z^i\right]^2+\lambda\sum_{i=1}^d|x^i|\notag\\ &=\frac{L}{2}\sum_{i=1}^d\left[(x^i-z^i)^2\pm \frac{2}{L}\lambda x^i\right]\notag\\ &=\frac{L}{2}\sum_{i=1}^d\left[(x^i-z^i)^2\pm 2\frac{\lambda}{L}( x^i-z^i)+(\frac{\lambda}{L})^2+\mathrm{const}\right]\notag\\ &=\frac{L}{2}\sum_{i=1}^d\left[(x^i-z^i\pm \frac{\lambda}{L})^2+\mathrm{const}\right]\notag\\ &=\frac{L}{2}\sum_{i=1}^d\left[(x^i-z^i\pm \frac{\lambda}{L})^2\right]+\mathrm{const} \tag{11.12} \end{align} 2L∣∣xz22+λ∣∣x1=2Li=1d[xizi]2+λi=1dxi=2Li=1d[(xizi)2±L2λxi]=2Li=1d[(xizi)2±2Lλ(xizi)+(Lλ)2+const]=2Li=1d[(xizi±Lλ)2+const]=2Li=1d[(xizi±Lλ)2]+const(11.12)
其中, ± \pm ± x i > 0 x^i>0 xi>0时取“+”号。 这里由于下标被样本编号占用,故用上标表示向量的分量。

8.3 AdaBoost算法的详细推导式 (8.17)的数学知识,对式(11.12)的最小化变为
min ⁡ ∑ i = 1 d [ ( x i − z i ± λ L ) 2 ] \begin{align} \min\sum_{i=1}^d\left[(x^i-z^i\pm \frac{\lambda}{L})^2\right] \tag{11.13} \end{align} mini=1d[(xizi±Lλ)2](11.13)

平方和式(11.13):当各项为0时,达到最小值0。 即解为
x i = z i ∓ λ L \begin{align} x^i=z^i\mp \frac{\lambda}{L} \tag{11.14} \end{align} xi=ziLλ(11.14)
其中, ∓ \mp x i > 0 x^i>0 xi>0时取“ − - ”号。 整理即为【西瓜书式(11.14)】。

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:11.3 包裹式选择(特征选择的LVW算法:打开包裹)
下一篇:11.5 稀疏表示与字典学习(字典、词频、文档的特征)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值