正则化线性模型

最新推荐文章于 2025-04-25 23:08:00 发布

原创

最新推荐文章于 2025-04-25 23:08:00 发布 · 896 阅读

1 ·

CC 4.0 BY-SA版权

本文介绍了线性回归模型的正则化方法，包括L1（Lasso）和L2（Ridge）正则化。L1正则化能实现特征选择，L2则能降低特征系数。通过超参数alpha控制正则化强度，使用GridSearchCV找到最优参数。在实际应用中，Lasso在最优alpha为0.001时的均方差较低，而ElasticNet结合了L1和L2的优势，L1_ratio为0.5时表现良好。

线性回归模型，只能通过变量添加特征、交互作用和变换来增加对数据特征的适应性和估计的可变性，

即使用高方差换取更小的偏差。

为了权衡控制偏差和方差，可以用L1和L2正则化。

L1：也成Lasso，把系数变为0，做出了特征选择
L2:也称Ridge,降低大部分有问题的特征系数，非常小，但>0.所有系数继续参与估计，但系数变得小所以无关。

通过超参数alpha控制正则化强度，区间为【0,1】，取值越大，正则化越强，对系数的减弱越大。

C=1/alpha,C用在逻辑回归和支持向量机中，所以C可以大于1，C越小，正则化越强。

tips:一般在使用正则化之前，需要对变量进行标准化，一般为【-1,1】之间

一、ridge（山脊正则化）

#通过网格搜索，选出正确的参数值

from sklearn.grid_search import GridSearchCV
from sklearn.linear_model import Ridge
ridge = Ridge(normalize=True)
search = GridSearchCV(estimator=ridge, param_grid={'alpha':np.logspace(-5,2,8)},
scoring='neg_mean_squared_error', n_jobs=1, refit=True, cv=10)
search.fit(polyX,y)
print ('Best parameters: %s' % search.best_params_)
print ('CV M