Scikit-learn从入门到实践:Scikit-learn数据预处理入门

原创已于 2025-09-03 11:32:46 修改 · 627 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#scikit-learn #python #机器学习

于 2025-09-03 11:29:10 首次发布

部署运行你感兴趣的模型镜像

数据预处理实战：Scikit-learn入门

学习目标

本课程将引导学员通过Scikit-learn库进行数据预处理，包括数据清洗、缺失值处理、数据转换（如标准化、归一化）以及特征选择等关键步骤。通过本课程的学习，学员将能够独立完成数据预处理工作，为后续的数据分析和机器学习模型训练打下坚实的基础。

学习内容

1. Scikit-learn数据预处理

1.1 数据清洗与缺失值处理

数据清洗是数据预处理的第一步，它涉及到识别并修正数据中的错误或不一致之处。在实际应用中，数据集往往包含缺失值、异常值或格式不一致等问题，这些问题如果不加以处理，将严重影响后续分析的准确性。

缺失值处理

在Scikit-learn中，处理缺失值通常使用SimpleImputer类。这个类可以使用不同的策略来填充缺失值，如使用均值、中位数或最频繁出现的值等。下面是一个简单的例子，展示如何使用SimpleImputer来处理数据集中的缺失值。

%pip install scikit-learn

import numpy as np
from sklearn.impute import SimpleImputer

# 创建一个包含缺失值的数据集
data = np.array([[1, 2], [np.nan, 3], [7, 6]])

# 创建一个SimpleImputer对象，使用均值填充策略
imputer = SimpleImputer(strategy='mean')

# 拟合并转换数据
imputed_data = imputer.fit_transform(data)

print("原始数据：\n", data)
print("处理后的数据：\n", imputed_data)

原始数据：
 [[ 1.  2.]
 [nan  3.]
 [ 7.  6.]]
处理后的数据：
 [[1. 2.]
 [4. 3.]
 [7. 6.]]

在这个例子中，我们首先创建了一个包含缺失值的二维数组。然后，我们使用SimpleImputer类的fit_transform方法来拟合数据并填充缺失值。输出结果展示了原始数据和处理后的数据，可以看到缺失值已经被均值所替代。

异常值处理

异常值是指数据集中与其他值显著不同的值，它们可能是由于测量错误或输入错误造成的。处理异常值的方法有很多，包括删除、替换或使用统计方法来识别和处理。Scikit-learn本身没有直接提供处理异常值的工具，但可以结合其他Python库（如Pandas）来实现。

1.2 数据转换：标准化与归一化

数据转换是数据预处理中的另一个重要步骤，它可以帮助提高机器学习模型的性能。常见的数据转换方法包括标准化和归一化。

标准化

标准化（Standardization）是指将数据转换为均值为0，标准差为1的分布。这通常通过减去均值并除以标准差来实现。在Scikit-learn中，可以使用StandardScaler类来实现标准化。

from sklearn.preprocessing import StandardScaler

# 创建一个数据集
data = np.array([[1, 2], [3, 4], [5, 6]])

# 创建一个StandardScaler对象
scaler = StandardScaler()

# 拟合并转换数据
scaled_data = scaler.fit_transform(data)

print("原始数据：\n", data)
print("标准化后的数据：\n", scaled_data)

原始数据：
 [[ 1.  2.]
 [nan  3.]
 [ 7.  6.]]
处理后的数据：
 [[1. 2.]
 [4. 3.]
 [7. 6.]]

异常值处理

1.2 数据转换：标准化与归一化

数据转换是数据预处理中的另一个重要步骤，它可以帮助提高机器学习模型的性能。常见的数据转换方法包括标准化和归一化。

标准化

from sklearn.preprocessing import StandardScaler

# 创建一个数据集
data = np.array([[1, 2], [3, 4], [5, 6]])

# 创建一个StandardScaler对象
scaler = StandardScaler()

# 拟合并转换数据
scaled_data = scaler.fit_transform(data)

print("原始数据：\n", data)
print("标准化后的数据：\n", scaled_data)

原始数据：
 [[1 2]
 [3 4]
 [5 6]]
标准化后的数据：
 [[-1.22474487 -1.22474487]
 [ 0.          0.        ]
 [ 1.22474487  1.22474487]]

原始数据：
 [[1 2]
 [3 4]
 [5 6]]
标准化后的数据：
 [[-1.22474487 -1.22474487]
 [ 0.          0.        ]
 [ 1.22474487  1.22474487]]

在这个例子中，我们使用StandardScaler类对数据进行了标准化处理。输出结果展示了原始数据和标准化后的数据，可以看到标准化后的数据均值接近0，标准差接近1。

归一化

归一化（Normalization）是指将数据转换到一个特定的范围内，通常是0到1之间。这可以通过将每个值减去最小值，然后除以最大值和最小值的差来实现。在Scikit-learn中，可以使用MinMaxScaler类来实现归一化。

from sklearn.preprocessing import MinMaxScaler

# 创建一个数据集
data = np.array([[1, 2], [3, 4], [5, 6]])

# 创建一个MinMaxScaler对象
scaler = MinMaxScaler()

# 拟合并转换数据
normalized_data = scaler.fit_transform(data)

print("原始数据：\n", data)
print("归一化后的数据：\n", normalized_data)

在这个例子中，我们使用MinMaxScaler类对数据进行了归一化处理。输出结果展示了原始数据和归一化后的数据，可以看到归一化后的数据范围在0到1之间。

1.3 特征选择

特征选择是数据预处理中的一个重要步骤，它可以帮助减少数据集的维度，提高模型的训练效率和性能。Scikit-learn提供了多种特征选择的方法，包括基于模型的特征选择、递归特征消除等。

基于模型的特征选择

基于模型的特征选择是指使用一个模型来评估特征的重要性，然后选择最重要的特征。在Scikit-learn中，可以使用SelectFromModel类来实现基于模型的特征选择。

from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectFromModel

# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target

# 创建一个随机森林分类器
clf = RandomForestClassifier(random_state=42)

# 拟合模型
clf.fit(X, y)

# 创建一个SelectFromModel对象
selector = SelectFromModel(clf, prefit=True)

# 选择特征
X_selected = selector.transform(X)

print("原始特征数量：", X.shape[1])
print("选择后的特征数量：", X_selected.shape[1])


```cpp
原始特征数量： 4
选择后的特征数量： 2


在这个例子中，我们使用随机森林分类器来评估特征的重要性，并使用`SelectFromModel`类选择最重要的特征。输出结果展示了原始特征数量和选择后的特征数量，可以看到特征数量有所减少。

**递归特征消除**

递归特征消除（Recursive Feature Elimination, RFE）是一种通过递归地移除特征并构建模型来选择特征的方法。在Scikit-learn中，可以使用`RFE`类来实现递归特征消除。

```python
from sklearn.feature_selection import RFE

# 创建一个RFE对象
rfe = RFE(estimator=clf, n_features_to_select=2)

# 拟合模型
rfe.fit(X, y)

# 选择特征
X_rfe = rfe.transform(X)

print("原始特征数量：", X.shape[1])
print("选择后的特征数量：", X_rfe.shape[1])

原始特征数量： 4
选择后的特征数量： 2

在这个例子中，我们使用RFE类来选择最重要的2个特征。输出结果展示了原始特征数量和选择后的特征数量，可以看到特征数量减少到了2个。

通过本课程的学习，学员将掌握使用Scikit-learn进行数据预处理的基本方法，包括数据清洗、缺失值处理、数据转换和特征选择等。这些技能将帮助学员在实际项目中更有效地处理数据，为后续的数据分析和机器学习模型训练打下坚实的基础。

您可能感兴趣的与本文相关的镜像

Python3.10

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

Scikit-learn从入门到实践:Scikit-learn数据预处理入门

数据预处理实战：Scikit-learn入门

学习目标

相关知识点

学习内容

1. Scikit-learn数据预处理

1.1 数据清洗与缺失值处理

1.2 数据转换：标准化与归一化

1.2 数据转换：标准化与归一化

1.3 特征选择