机器学习中典型工作流程

最新推荐文章于 2025-09-22 11:45:57 发布

原创

最新推荐文章于 2025-09-22 11:45:57 发布 · 1.6k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#machine learning

读取和清洗数据

将现实世界中得到的数据（如文本和图像）格式化为算法可以处理的格式（数字特征）。

见另一篇Blog：

机器学习中样本数据预处理

一句话，数据决定了你的任务是成功和失败。

探索和理解输入数据

通常需要统计学和基础数学知识，引入一个概念：探索性数据分析(Exploratory Data Analysis， EDA )。

见Blog：

机器学习探索性数据分析

分析如何最好的将数据呈现给学习算法

特征工程（feature engineering）

一个简单算法在精心选择的特征上的效果要比一个漂亮算法在较差的特征上的效果还要好。

通常好特征的目标是在重要的地方取不同值，而在不重要的地方不变。有时需要借助背景知识通过直觉来判断哪些是好特征。能否自动地把好特征选出来 -> 特征选择（feature selection）

删除低方差的特征

from sklearn.feature_selection import VarianceThreshold

单变量特征选择

from sklearn.feature_selection import SelectKBest
X_new = SelectKBest(chi2, k=2).fit_transform(X, y)

scikit-learn：
- 回归: f_regression, mutual_info_regression
- 分类: chi2, f_classif, mutual_info_classif

递归特征消减

给定一个外部估计器，它为特征赋值（例如，线性模型的系数），递归特性消除（RFE）是通过递归地考虑越来越小的特性集来选择特性。首先，评估人员在初始的特性集上进行训练，并且通过一个coef_属性或通过一个feature_importances_属性获得每个特性的重要性。然后，最不

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。