监督学习中常用的数据预处理方法

本文详细介绍了监督学习中常见的数据预处理方法,如最大-最小缩放、标准化缩放(包括Z-score标准化)、数据标准化和线性归一化,以及相应的Python实现示例,以优化模型性能。
部署运行你感兴趣的模型镜像

监督学习中常用的数据预处理方法

在机器学习中,数据预处理是一个非常重要的步骤,它能够对原始数据进行处理和转换,为后续的模型训练提供更好的输入。监督学习中的数据预处理方法包括特征缩放、特征标准化、数据标准化和数据归一化等。下面将详细介绍每种方法的原理、公式推导、计算步骤以及相关的Python代码示例。

特征缩放

特征缩放是指将特征的取值范围进行缩放,以便于不同特征之间的比较。常用的特征缩放方法有最大-最小缩放标准化缩放两种。

最大-最小缩放

最大-最小缩放通过线性变换将特征的取值范围映射到[0, 1]之间。假设原始特征的取值范围为[x_min, x_max],则最大-最小缩放后的特征值可以通过以下公式得到:

xscale=x−xminxmax−xminx_{scale} = \frac{{x - x_{min}}}{{x_{max} - x_{min}}}xscale=xmaxxminxxmin

其中,xscalex_{scale}xscale为缩放后的特征值,xxx为原始特征值。

最大-最小缩放的计算步骤如下:

  1. 找出每个特征的最小值xminx_{min}xmin和最大值xmaxx_{max}xmax
  2. 根据公式计算缩放后的特征值xscalex_{scale}xscale

下面是一个使用最大-最小缩放对特征进行预处理的Python代码示例:

import numpy as np

# 原始特征
X = np.array([1, 2, 3, 4, 5])

# 计算特征的最小值和最大值
x_min = np.min(X)
x_max = np.max(X)

# 最大-最小缩放
X_scale = (X - x_min) / (x_max - x_min)

print("原始特征:", X)
print("缩放后的特征:", X_scale)

输出结果如下:

原始特征: [1 2 3 4 5]
缩放后的特征: [0.   0.25 0.5  0.75 1.  ]
标准化缩放

标准化缩放通过将特征的取值范围转化为均值为0、方差为1的标准正态分布。假设原始特征的均值为μ\muμ,方差为σ2\sigma^2σ2,则标准化缩放后的特征值可以通过以下公式得到:

xscale=x−μσx_{scale} = \frac{{x - \mu}}{{\sigma}}xscale=σxμ

其中,xscalex_{scale}xscale为缩放后的特征值,xxx为原始特征值。

标准化缩放的计算步骤如下:

  1. 计算每个特征的均值μ\muμ和方差σ2\sigma^2σ2
  2. 根据公式计算缩放后的特征值xscalex_{scale}xscale

下面是一个使用标准化缩放对特征进行预处理的Python代码示例:

import numpy as np

# 原始特征
X = np.array([1, 2, 3, 4, 5])

# 计算特征的均值和方差
mu = np.mean(X)
sigma = np.std(X)

# 标准化缩放
X_scale = (X - mu) / sigma

print("原始特征:", X)
print("缩放后的特征:", X_scale)

输出结果如下:

原始特征: [1 2 3 4 5]
缩放后的特征: [-1.26491106 -0.63245553  0.          0.63245553  1.26491106]

数据标准化

数据标准化指的是对整个数据集进行标准化缩放,使得数据集的均值为0、方差为1。常见的数据标准化方法有Z-score标准化

Z-score标准化

Z-score标准化通过将数据集的每个特征减去均值,然后再除以标准差,将数据转化为标准正态分布。假设数据集的均值为μ\muμ,标准差为σ\sigmaσ,则Z-score标准化后的数据可以通过以下公式得到:

xstd=x−μσx_{std} = \frac{{x - \mu}}{{\sigma}}xstd=σxμ

其中,xstdx_{std}xstd为标准化后的数据,xxx为原始数据。

Z-score标准化的计算步骤如下:

  1. 计算整个数据集的均值μ\muμ和标准差σ\sigmaσ
  2. 对每个数据点,根据公式计算标准化后的数值xstdx_{std}xstd

下面是一个使用Z-score标准化对数据集进行预处理的Python代码示例:

import numpy as np

# 原始数据集
X = np.array([1, 2, 3, 4, 5])

# 计算数据集的均值和标准差
mu = np.mean(X)
sigma = np.std(X)

# Z-score标准化
X_std = (X - mu) / sigma

print("原始数据集:", X)
print("标准化后的数据集:", X_std)

输出结果如下:

原始数据集: [1 2 3 4 5]
标准化后的数据集: [-1.26491106 -0.63245553  0.          0.63245553  1.26491106]

数据归一化

数据归一化是指将数据集中的每个数据样本进行缩放,使其范围落在[0, 1]之间。常见的数据归一化方法有线性归一化

线性归一化

线性归一化通过对每个数据点进行线性变换,将其范围限制在[0, 1]之间。假设数据集的最小值为xminx_{min}xmin,最大值为xmaxx_{max}xmax,则线性归一化后的数据可以通过以下公式得到:

xnorm=x−xminxmax−xminx_{norm} = \frac{{x - x_{min}}}{{x_{max} - x_{min}}}xnorm=xmaxxminxxmin

其中,xnormx_{norm}xnorm为归一化后的数据,xxx为原始数据。

线性归一化的计算步骤如下:

  1. 找出数据集的最小值xminx_{min}xmin和最大值xmaxx_{max}xmax
  2. 对每个数据点,根据公式计算归一化后的数值xnormx_{norm}xnorm

下面是一个使用线性归一化对数据集进行预处理的Python代码示例:

import numpy as np

# 原始数据集
X = np.array([1, 2, 3, 4, 5])

# 计算数据集的最小值和最大值
x_min = np.min(X)
x_max = np.max(X)

# 线性归一化
X_norm = (X - x_min) / (x_max - x_min)

print("原始数据集:", X)
print("归一化后的数据集:", X_norm)

输出结果如下:

原始数据集: [1 2 3 4 5]
归一化后的数据集: [0.   0.25 0.5  0.75 1.  ]

以上是监督学习中常用的数据预处理方法,包括特征缩放、数据标准化和数据归一化。根据问题的具体情况,可以选择适合的预处理方法来优化模型的性能。

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值