（《机器学习》完整版系列）第11章特征选择与稀疏学习——11.4 嵌入式选择与L1正则化（将特征选择嵌入到优化算法中，以LASSO算法为代表）-优快云博客

本文链接：https://blog.youkuaiyun.com/qiy_icbc/article/details/129616791

嵌入式选择通过将特征选择融入优化过程，尤其是L1正则化的LASSO算法，可以迫使某些特征权重为0，从而实现“删维”和降低过拟合风险。L1正则化的直观解释是在损失曲线与正方形（顶点在坐标轴上）相切时找到最优解，导致稀疏解。通过近端梯度下降（PGD）求解L1正则化问题，能有效寻找这种稀疏特征表示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

嵌入式选择：将特征选择嵌入到优化算法中，是隐式地选择。
LASSO：让算法逼迫一些属性的权重为0，即最小化 $L_0$ ，但实际上是通过最小化 $L_1$ 来近似实现。这时，就有两个优化目标：一是原来的最小化损失函数；二是新增加的最小化 $L_1$ ，其形式同引入正则化得到的式子，而正则化又有助于降低过拟合的风险。
算法LASSO一举两得：降低过似合风险和得到“稀疏”解。

嵌入式选择与 $L_1$ 正则化

在有趣的距离与范数中，我们定义了 $L_0,L_1,L_2$ 等范数。
假定以某种方法迫使 $\boldsymbol{w}$ 的一些分量为0（最小化 $L_0$ ），非零分量只有 $d^{'}$ 个，这时
$\begin{align} \boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}&=(w_1,w_2,\cdots,w_d)(x^1;x^2;\cdots;x^d)\notag\\ &=(w_1,w_2,\cdots,w_{d'},0,\cdots,0)(x^1;x^2;\cdots;x^{d'};x^{d'+1};\cdots;x^d)\notag\\ &\qquad \text{（假定$\boldsymbol{w}$的非零分量为$d'$个且排在前面）}\notag\\ &=({\boldsymbol{w}'}^{\mathrm{T}},{\boldsymbol{0}}^{\mathrm{T}})(\boldsymbol{x}';\boldsymbol{*})\notag\\ &={\boldsymbol{w}'}^{\mathrm{T}}\boldsymbol{x}' \tag{11.11} \end{align}$
即“ $\boldsymbol{x}$ 作用于 $\boldsymbol{w}$ ”等价于“ $\boldsymbol{x}'$ 作用于 $\boldsymbol{w}'$ ”，而 $\boldsymbol{x}'=(x^1;x^2;\cdots;x^{d'})$ ，只有 $d^{'}$ 个属性，这就实现有“删维”的目的。即它可以通过 $\boldsymbol{w}$ 的“稀疏”（由于非零分量不一定排在前面，而是零星地分布，故称为“稀疏”）来实现 $\boldsymbol{x}$ 的“删维”。

嵌入式选择是隐式地选择（算法逼迫一些属性的权重为0，即最小化 $L_0$ ），但实际上是通过最小化 $L_1$ 来近似实现。这时，就有两个优化目标：一是原来的最小化损失函数；二是新增加的最小化 $L_1$ 。将二者合在一起进行优化，即为【西瓜书式(11.7)】，称为LASSO。其形式同引入正则化得到的式子，而正则化又有助于降低过拟合的风险。因此，算法LASSO一举两得：降低过似合风险和得到“稀疏”解（实现了式(11.11)的效果）。

【西瓜书图11.2】在二维情形下，以直观的方式解释了：

$L_2$ 正则化（岭回归）的最优点位于损失曲线（圆）与 $||\boldsymbol{w}||^2_2=c$ （圆）相切处。
$L_1$ 正则化（LASSO）的最优点位于损失曲线（圆）与 $||\boldsymbol{w}||_1=c$ （正方形）相切处，而该正方形是一种特殊的正方形：顶点在坐标轴上（ $w_1|+|w_2|=c$ ），故最优点在坐标轴上，即另一坐标为0，这即为“稀疏”解。

【西瓜书式(11.7)】是基于线性回归目标【西瓜书式(11.5)】构造的 $L_1$ 正则化，推广到一般，设优化目标函数为 $f(\boldsymbol{x})$ ，则 $L_1$ 正则化为【西瓜书式(11.8)】。

通常用近端梯度下降（PGD）求解 $L_1$ 正则化问题。
与梯度下降法不同的是：这里不是对整体（ $f(\boldsymbol{x})+\lambda|| \boldsymbol{x}||_1$ ）使用泰勒展式，而是对其中的一部分（即 $f(\boldsymbol{x})$ ）使用泰勒展式，得到【西瓜书式(11.10)】，如是就有了图11.3的求值过程（图中的式子编号均为【西瓜书中的式子编号】）。
图11.3 近端梯度下降（PGD）

图11.3 近端梯度下降（PGD）

图11.3 中，从【西瓜书式(11.13)】求解 $\boldsymbol{x}_{k+1}$ 如下：
$\begin{align} &\quad \frac{L}{2}||\boldsymbol{x}-\boldsymbol{z}||_2^2+\lambda ||\boldsymbol{x}||_1\notag\\ &=\frac{L}{2}\sum_{i=1}^d\left[x^i-z^i\right]^2+\lambda\sum_{i=1}^d|x^i|\notag\\ &=\frac{L}{2}\sum_{i=1}^d\left[(x^i-z^i)^2\pm \frac{2}{L}\lambda x^i\right]\notag\\ &=\frac{L}{2}\sum_{i=1}^d\left[(x^i-z^i)^2\pm 2\frac{\lambda}{L}( x^i-z^i)+(\frac{\lambda}{L})^2+\mathrm{const}\right]\notag\\ &=\frac{L}{2}\sum_{i=1}^d\left[(x^i-z^i\pm \frac{\lambda}{L})^2+\mathrm{const}\right]\notag\\ &=\frac{L}{2}\sum_{i=1}^d\left[(x^i-z^i\pm \frac{\lambda}{L})^2\right]+\mathrm{const} \tag{11.12} \end{align}$
其中， $\pm$ 当 $x^i>0$ 时取“+”号。这里由于下标被样本编号占用，故用上标表示向量的分量。

由8.3 AdaBoost算法的详细推导式 (8.17)的数学知识，对式(11.12)的最小化变为
$\begin{align} \min\sum_{i=1}^d\left[(x^i-z^i\pm \frac{\lambda}{L})^2\right] \tag{11.13} \end{align}$