【机器学习】Feature selection – Part II: linear models and regularization

正则化模型在特征选择中的作用

最新推荐文章于 2025-09-09 09:19:30 发布

镰刀韭菜

最新推荐文章于 2025-09-09 09:19:30 发布

阅读量426

点赞数

分类专栏：深度学习与机器学习文章标签：机器学习特征工程特征选择 Lasso 岭回归

深度学习与机器学习专栏收录该内容

103 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文探讨了如何使用线性模型和正则化进行特征选择。L1正则化（Lasso）产生稀疏解，适用于特征选择，而L2正则化（岭回归）提供更稳定的系数，适合数据解释。正则化线性模型在平衡特征解释和选择方面表现出色。

Selecting good features – Part II: linear models and regularization

在我之前的文章中，我讨论了单变量特征选择，其中每个特征都是根据响应变量独立评估的。另一种流行的方法是利用机器学习模型进行特征排序。许多机器学习模型要么具有一些固有的特征内部排序，要么很容易根据模型的结构生成排序。这适用于回归模型、支持向量机、决策树、随机森林等。

在本文中，我将讨论使用回归模型的系数来选择和解释特征。这是基于这样的思想，即当所有特征都在同一尺度上时，模型中最重要的特征应当具有最高的系数，而与输出变量无关的特征应当具有接近于零的系数值。当数据不是非常嘈杂(或者与特征的数量相比存在大量数据)并且特征是(相对地)独立的时，即使对于简单的线性回归模型，该方法也可以很好地工作：

from sklearn.linear_model import LinearRegression
import numpy as np

np.random.seed(0)
size = 5000

# A dataset with 3 features
X = np.random.normal(0,1,(size,3))
# Y=X0+2*X1+noise
Y=X[:,0]+2*X[:,1]+np.random.normal(0,2,size)
lr=LinearRegression()
lr.fit(X,Y)

# A helper method for pretty-printing linear models
def pretty_print_linear(co

了解本专栏

超级会员免费看