【机器学习】Feature selection – Part II: linear models and regularization

本文探讨了如何使用线性模型和正则化进行特征选择。L1正则化(Lasso)产生稀疏解,适用于特征选择,而L2正则化(岭回归)提供更稳定的系数,适合数据解释。正则化线性模型在平衡特征解释和选择方面表现出色。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Selecting good features – Part II: linear models and regularization


在我之前的文章中,我讨论了单变量特征选择,其中每个特征都是根据响应变量独立评估的。另一种流行的方法是利用机器学习模型进行特征排序。许多机器学习模型要么具有一些固有的特征内部排序,要么很容易根据模型的结构生成排序。这适用于回归模型、支持向量机、决策树、随机森林等。

在本文中,我将讨论使用回归模型的系数来选择和解释特征。这是基于这样的思想,即当所有特征都在同一尺度上时,模型中最重要的特征应当具有最高的系数,而与输出变量无关的特征应当具有接近于零的系数值。当数据不是非常嘈杂(或者与特征的数量相比存在大量数据)并且特征是(相对地)独立的时,即使对于简单的线性回归模型,该方法也可以很好地工作:

from sklearn.linear_model import LinearRegression
import numpy as np

np.random.seed(0)
size = 5000

# A dataset with 3 features
X = np.random.normal(0,1,(size,3))
# Y=X0+2*X1+noise
Y=X[:,0]+2*X[:,1]+np.random.normal(0,2,size)
lr=LinearRegression()
lr.fit(X,Y)

# A helper method for pretty-printing linear models
def pretty_print_linear(co
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值