8、机器学习模型选择、训练与优化全流程指南

机器学习模型选择、训练与优化全流程指南

1. 数据预处理

在进行机器学习模型训练前,数据预处理是关键步骤。OneHotEncoder 返回稀疏矩阵,而数值处理管道返回密集矩阵。当存在稀疏和密集矩阵混合的情况时,ColumnTransformer 会估计最终矩阵的密度(即非零单元格的比例),若密度低于给定阈值(默认 sparse_threshold = 0.3),则返回稀疏矩阵,在某些示例中返回的是密集矩阵。

以下是一些数据处理的小技巧:
- 若想删除某些列,可指定字符串 “drop”;若想保留某些列不变,可指定 “passthrough”。
- 默认情况下,未列出的列将被删除,但可通过设置 remainder 超参数为任何转换器(或 “passthrough”)来以不同方式处理这些列。

对于较旧版本的 Scikit - Learn(0.19 或更早),可使用第三方库(如 sklearn - pandas),或自定义转换器以实现与 ColumnTransformer 相同的功能,也可使用 FeatureUnion 类,但它不能为每个转换器指定不同的列,不过可通过自定义列选择转换器来解决此限制。

2. 模型选择与训练

在完成问题定义、数据获取与探索、训练集和测试集采样以及数据转换管道编写后,就可以开始选择和训练机器学习模型了。

2.1 线性回归模型

首先尝试线性回归模型:

from sklearn.linear_model import LinearRegression 

lin_reg = L
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值