线性回归模型,只能通过变量添加特征、交互作用和变换来增加对数据特征的适应性和估计的可变性,
即使用高方差换取更小的偏差。
为了权衡控制偏差和方差,可以用L1和L2正则化。
- L1:也成Lasso,把系数变为0,做出了特征选择
- L2:也称Ridge,降低大部分有问题的特征系数,非常小,但>0.所有系数继续参与估计,但系数变得小所以无关。
通过超参数alpha控制正则化强度,区间为【0,1】,取值越大,正则化越强,对系数的减弱越大。
C=1/alpha,C用在逻辑回归和支持向量机中,所以C可以大于1,C越小,正则化越强。
tips:一般在使用正则化之前,需要对变量进行标准化,一般为【-1,1】之间
一、ridge(山脊正则化)
#通过网格搜索,选出正确的参数值
from sklearn.grid_search import GridSearchCV
from sklearn.linear_model import Ridge
ridge = Ridge(normalize=True)
search = GridSearchCV(estimator=ridge, param_grid={'alpha':np.logspace(-5,2,8)},
scoring='neg_mean_squared_error', n_jobs=1, refit=True, cv=10)
search.fit(polyX,y)
print ('Best parameters: %s' % search.best_params_)
print ('CV M