机器学习稀疏之L0正则化

最新推荐文章于 2025-06-23 12:58:09 发布

原创

最新推荐文章于 2025-06-23 12:58:09 发布 · 4.7k 阅读

5 ·

CC 4.0 BY-SA版权

本文介绍了L0正则化在特征选择中的应用，包括穷举计算法和MAP估计，讨论了正交投影寻踪法（OMP）作为优化手段。通过Prostate数据集的案例分析，展示了L0正则化在实际问题中的运用，并对比了不同选择模型的方法，如BIC准则和交叉验证。最后，指出L0正则化的挑战及其与L1正则化的联系。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一 . L0 范数正则化特征选择

穷举计算法

在面对变量选择时, 我们要进行后验表示，我们另 rj = 1, 表示第j 个特征与此后验是相关的，其中后验表达为

$p(r|D) = \frac{{{e^{ - f(r)}}}}{{\sum\nolimits_{{r^'}} {{e^{ - f(r)}}} }}$

其中f(r) 为花费函数， $f(r) \buildrel \Delta \over = - [logp(D|r) + logp(r)]$ .

假如有样本 N = 20 ，维数 D = 10，进行线性回归模型，其中数据和噪声为正太分布的， ${y_i} \sim N({w^T}{x_i},{\sigma ^2})$ ，我们一般会要求K 稀疏，表示稀疏的程度。如K = 5，表示有5个w 为非0，即我们用 w = (0, -1.67, 0.13, 0, 0, 1.19, 0, -0.04, 0.33, 0) ，并且噪声方差满足 ${\sigma ^2} = 1$ 。

其实我们可以枚举 2^10 = 1024 种模型来计算p(r|D)，通过组合所有的特征来枚举,最终得到最大的八组模型为：

进行大量的模型枚举判断真的不太容易，我们因而考虑一个自然而然的后验模型 MAP 估计, 似然加上先验，

$\hat r = \arg \max p(r|D) = argminf(r)$

在实际计算时，通常不会计算所有情况的概率密度，而是利用中值模型：

$\hat r = \{ j:p({r_j} = 1|D) > 0.5\}$

这就需要计算后验经验概率（marginal inclusion probabilities） $p({r_j} = 1|D)$ 。

我们可以分别得到每个特征对应的后验概率情况：

因而可以通过改变 $p({r_j} = 1|D)$ 阈值来进行特征的选择添加过程。

如果上述 MAP 估计或是 marginal inclusion probabilities 都无效的话，就要考虑算法加速。

首先先对上述计算进行模型实例化：

The spike and slab model

后验的公式为： $p(r|D) \propto p(r)p(D|r)$ ，即在进行MAP后验估计是由先验和似然乘积决定。

对于先验，用以下先验对于位（bit:0 or 1）向量表示伯努力：

$p(r) = \prod\limits_{j = 1}^D {Ber({r_j}|{\pi _0}) = \pi _0^{||r|{|_0}}{{(1 - {\pi _0})}^{D - ||r|{|_0}}}}$

其中 ${\pi _0}$ 是相关特征的概率， $||r|{|_0} = \sum\nolimits_{j = 1}^D {{r_j}}$ ， ||r||0 是 L0 的罚项的模值，即非零特征的个数，

写出其log 形式，从而化为更似 l0正则的样子：

$\begin{align*} {\mathop{\rm logp}\nolimits} (r|{\pi _0}) &= ||r|{|_0}\log {\pi _0} + (D - ||r|{|_0})\log (1 - {\pi _0}) \\ &= {||r|{|_0}(log{\pi _0} - \log (1 - {\pi _0}))} + const \\ &= { - \lambda } ||r|{|_0} + const \end{align*}$

其中 lambda 控制模型的稀疏度。

$\lambda \buildrel \Delta \over = \log \frac{{1 - {\pi _0}}}{{{\pi _0}}}$

先验的函数与l0 挂上钩了。下面对于似然函数

$p(D|r) = p(y|X,r) = \int \int {p(y|X,w,r)p(w|r,{\sigma ^2})p({\sigma ^2})}dwd{\sigma^2}$

这里对于符号的简化，我们假设响应y,是中心化过的（ie. $\bar y = 0$ ）,因此我们省虑了均值 u.

我们首先讨论 p(w | r, sigma^2) 中间那项，如果特征项 rj = 0，则不相关有 wj = 0. 如果 rj = 1, 我们希望 wj 是非零的。如果我们对输入数据进行标准化，我们有一个合适的先验（reasonable prior）, 即 $N(0,{\sigma ^2}\sigma _w^2)$ ，其中 $\sigma _w^2$ ，控制系数w与相关特征（rj =1）变量的期望的大小（即不为零的wj 为大多呀，这个期望的值的控制程度），这个项 $\sigma _w^2$ 通过 sigma^2 来进行scaled。

因而似然的先验有：

$\[p({w_j}|{\sigma ^2},{r_j}) \begin{cases} {\delta _0}({w_j}) & {if }\; {r_j} = 0 \\ N({w_j}|0,{\sigma ^2}\sigma _w^2) &{if }\; {r_j} = 1 \end{cases}$

第一项在原点处，即" spike", 当 $\sigma _w^2$ 趋于无穷时，这时 p(wj | rj =1) 接近均匀分布，即作为"slab", 因而叫做 spike and slab model.

我们可以将 wj = 0时的系数为零的情况去掉，那时为0 系数。这样我们可化似然为：

$p(D|r) = \int \int {N({y}|{X_r}w_r,{\sigma ^2}I_{N})N({{w_j}|0_{{D_r}}},{\sigma ^2}\sigma _w^2{I_{{D_r}}})p({\sigma ^2})}dw_rd{\sigma^2}$

其中 Dr = ||r||0, 是 r 中非0 项的个数，通常简化这个先验形式为: $p(w|r,{\sigma ^2}) = N({w_r}|{0_{{D_r}}},{\sigma ^2}\sum\nolimits_r {} )$ , 其中 $\sum\nolimits_r {}$ 是任意正定矩阵。