监督学习中常用的数据预处理方法

原创已于 2024-04-29 18:25:43 修改 · 1.3k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #机器学习 #算法 #sklearn

于 2024-04-29 15:42:33 首次发布

监督学习100问专栏收录该内容

10 篇文章

订阅专栏

本文详细介绍了监督学习中常见的数据预处理方法，如最大-最小缩放、标准化缩放（包括Z-score标准化）、数据标准化和线性归一化，以及相应的Python实现示例，以优化模型性能。

部署运行你感兴趣的模型镜像

监督学习中常用的数据预处理方法

在机器学习中，数据预处理是一个非常重要的步骤，它能够对原始数据进行处理和转换，为后续的模型训练提供更好的输入。监督学习中的数据预处理方法包括特征缩放、特征标准化、数据标准化和数据归一化等。下面将详细介绍每种方法的原理、公式推导、计算步骤以及相关的Python代码示例。

特征缩放

特征缩放是指将特征的取值范围进行缩放，以便于不同特征之间的比较。常用的特征缩放方法有最大-最小缩放和标准化缩放两种。

最大-最小缩放

最大-最小缩放通过线性变换将特征的取值范围映射到[0, 1]之间。假设原始特征的取值范围为[x_min, x_max]，则最大-最小缩放后的特征值可以通过以下公式得到：

$xscale=x−xminxmax−xminx_{scale} = \frac{{x - x_{min}}}{{x_{max} - x_{min}}}$

其中， $x_{scale}$ 为缩放后的特征值， $x$ 为原始特征值。

最大-最小缩放的计算步骤如下：

找出每个特征的最小值 $x_{min}$ 和最大值 $x_{max}$ ；
根据公式计算缩放后的特征值 $x_{scale}$ 。

下面是一个使用最大-最小缩放对特征进行预处理的Python代码示例：

import numpy as np

# 原始特征
X = np.array([1, 2, 3, 4, 5])

# 计算特征的最小值和最大值
x_min = np.min(X)
x_max = np.max(X)

# 最大-最小缩放
X_scale = (X - x_min) / (x_max - x_min)

print("原始特征：", X)
print("缩放后的特征：", X_scale)

输出结果如下：

原始特征： [1 2 3 4 5]
缩放后的特征： [0.   0.25 0.5  0.75 1.  ]

标准化缩放

标准化缩放通过将特征的取值范围转化为均值为0、方差为1的标准正态分布。假设原始特征的均值为 $μ\mu$ ，方差为 $σ2\sigma^2$ ，则标准化缩放后的特征值可以通过以下公式得到：

$xscale=x−μσx_{scale} = \frac{{x - \mu}}{{\sigma}}$

其中， $x_{scale}$ 为缩放后的特征值， $x$ 为原始特征值。

标准化缩放的计算步骤如下：

计算每个特征的均值 $μ\mu$ 和方差 $σ2\sigma^2$ ；
根据公式计算缩放后的特征值 $x_{scale}$ 。

下面是一个使用标准化缩放对特征进行预处理的Python代码示例：

import numpy as np

# 原始特征
X = np.array([1, 2, 3, 4, 5])

# 计算特征的均值和方差
mu = np.mean(X)
sigma = np.std(X)

# 标准化缩放
X_scale = (X - mu) / sigma

print("原始特征：", X)
print("缩放后的特征：", X_scale)

输出结果如下：

原始特征： [1 2 3 4 5]
缩放后的特征： [-1.26491106 -0.63245553  0.          0.63245553  1.26491106]

数据标准化

数据标准化指的是对整个数据集进行标准化缩放，使得数据集的均值为0、方差为1。常见的数据标准化方法有Z-score标准化。

Z-score标准化

Z-score标准化通过将数据集的每个特征减去均值，然后再除以标准差，将数据转化为标准正态分布。假设数据集的均值为 $μ\mu$ ，标准差为 $σ\sigma$ ，则Z-score标准化后的数据可以通过以下公式得到：

$xstd=x−μσx_{std} = \frac{{x - \mu}}{{\sigma}}$

其中， $x_{std}$ 为标准化后的数据， $x$ 为原始数据。

Z-score标准化的计算步骤如下：

计算整个数据集的均值 $μ\mu$ 和标准差 $σ\sigma$ ；
对每个数据点，根据公式计算标准化后的数值 $x_{std}$ 。

下面是一个使用Z-score标准化对数据集进行预处理的Python代码示例：

import numpy as np

# 原始数据集
X = np.array([1, 2, 3, 4, 5])

# 计算数据集的均值和标准差
mu = np.mean(X)
sigma = np.std(X)

# Z-score标准化
X_std = (X - mu) / sigma

print("原始数据集：", X)
print("标准化后的数据集：", X_std)

输出结果如下：

原始数据集： [1 2 3 4 5]
标准化后的数据集： [-1.26491106 -0.63245553  0.          0.63245553  1.26491106]

数据归一化

数据归一化是指将数据集中的每个数据样本进行缩放，使其范围落在[0, 1]之间。常见的数据归一化方法有线性归一化。

线性归一化

线性归一化通过对每个数据点进行线性变换，将其范围限制在[0, 1]之间。假设数据集的最小值为 $x_{min}$ ，最大值为 $x_{max}$ ，则线性归一化后的数据可以通过以下公式得到：

$xnorm=x−xminxmax−xminx_{norm} = \frac{{x - x_{min}}}{{x_{max} - x_{min}}}$

其中， $x_{norm}$ 为归一化后的数据， $x$ 为原始数据。

线性归一化的计算步骤如下：

找出数据集的最小值 $x_{min}$ 和最大值 $x_{max}$ ；
对每个数据点，根据公式计算归一化后的数值 $x_{norm}$ 。

下面是一个使用线性归一化对数据集进行预处理的Python代码示例：

import numpy as np

# 原始数据集
X = np.array([1, 2, 3, 4, 5])

# 计算数据集的最小值和最大值
x_min = np.min(X)
x_max = np.max(X)

# 线性归一化
X_norm = (X - x_min) / (x_max - x_min)

print("原始数据集：", X)
print("归一化后的数据集：", X_norm)

输出结果如下：

原始数据集： [1 2 3 4 5]
归一化后的数据集： [0.   0.25 0.5  0.75 1.  ]

以上是监督学习中常用的数据预处理方法，包括特征缩放、数据标准化和数据归一化。根据问题的具体情况，可以选择适合的预处理方法来优化模型的性能。

您可能感兴趣的与本文相关的镜像

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本