Week5 Lasso Regression

最新推荐文章于 2024-04-22 14:24:51 发布

Yennefer

最新推荐文章于 2024-04-22 14:24:51 发布

阅读量339

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习@Machine Learning 文章标签：机器学习 Ridge Regression Feature select

本文链接：https://blog.youkuaiyun.com/qq_22713487/article/details/77800067

机器学习@Machine Learning 专栏收录该内容

1 篇文章

订阅专栏

本文探讨了特征选择的方法，包括穷举法、贪婪算法等，并详细解析了岭回归（L2正则化）和Lasso回归（L1正则化）的工作原理及应用。特别讨论了L1正则化如何实现特征选择。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.Feature selection

1)All subsets

w^= (w 1, w 2 . . . w D)

$\hat w=(w_1,w_2...w_D)$
每一个特征都有可能包含或者不包含共有

2D $2^D$ 种情况，即穷举所有可能的model

2)Greedy algorithms

Forward stepwise algorithm

    从0特征开始，每次增加一个特征（保留之前的结果）
    $第一次D选1$
    $第二次剩余的(D-1)中选1$
     $……$
     $……$
     $复杂度O(D^2)$
用validation_set(数据量较小时需要cross validation)计算，直到是停止算法。

3)Regularize

Ridge regression( $L_2$ regularized regression)

T o t o l c o s t = R S S (w^) + λ | | w | | 22

$Totol　cost=RSS(\hat w)+\lambda||w||_2^2$
　　L2 encourage $\hat w$ to be small(close to but not 0)

Lasso regression( $L_1$ regularized regression)

T o t o l c o s t = R S S (w^) + λ | | w | | 1

$Totol　cost=RSS(\hat w)+\lambda||w||_1$
　　L1 sparse $\hat w$ (some of $\hat w$ be exactly 0)
　　
　　【注意】lasso的 $||w||_1$ 是不含 $w_0$ 的，因为lasso是sparse（缩减有效w个数，即使一部分w为0），而我们不希望intercept也为0，故不含

w0 $w_0$
　　－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－-
　　由于L1 norm是不可导的，故Lasso不能像Ridge一样采用Gradient Decent算法，而应采用Subgradient Decent算法：
　　

Coodinate descent

1)feature matrix可以先normalize(归一化)

【注意】归一化针对每一个 $w_j$ 而言，即一列一列的归一化。归一化相当于将feature matrix / norms ；对结果weights即 $\hat w$ 而言相当于乘以了norms，这样才能保证

p r e d i c t i o n s = n p . d o t (F e a t u r e M a t r i x ， w e i g h t s)

$predictions=np.dot(FeatureMatrix，weights)$

2)Lasso的结果

3)Lasso的代码（Cyclical coordinate descent）

coodinate(指一次处理一个） descent是固定其他w参数而变更 $w_i$ ：

更新 $w_i$ 的算法：

For each iteration:

1）As you loop over features in order and perform coordinate descent, measure how much each coordinate changes.

2）After the loop, if the maximum change across all coordinates is falls below the tolerance, stop. Otherwise, go back to step 1.

4)Lasso和Ridge的区别(待补充）

lasso是sparse会将一部分w舍弃(置为0，所以是feature selection），而ridge使w趋近0但不会为0

为什么lasso可以将w置0，而ridge不行？

从几何图形上可以理解;

如上图为两特征的 $\hat w=(w_0，w_1)$ 示例，solution处 $w_0$ 为0

ridge的solution为椭圆与圆相切的点，很明显不能使 $w_0$ 或者 $w_1$ 为0
以ridge为例，对某一个特定 $\lambda$ 取solution的过程如下：