12-数据预处理-归一化

本文介绍了数据预处理中的归一化技术,讲解了为什么需要进行归一化,通过公式展示了归一化的操作,并给出了如何在Python的sklearn库中实现这一过程。内容包括导入数据、理解归一化的概念、使用示例以及实际操作步骤。

导入

什么是特征预处理?

在这里插入图片描述

特征预处理

什么是特征预处理?

# scikit-learn的解释
provides several common utility functions and transformer classes to change raw feature vectors into a representation that is more suitable for the downstream estimators.

在这里插入图片描述

包含内容

在这里插入图片描述

如何在sklearn中实现特征预处理

sklearn.preprocessing

思考:我们为什么要进行归一化/标准化?

在这里插入图片描述

举例说明

约会对象数据

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
我们需要采取一些措施对数据进行无量纲化处理,使得不同规格的数据转到同一规格。

归一化

什么是归一化呢?

通过对原始数据进行变换把数据映射到(默认为[0,1],可以根据需要调整)之间

公式

X′=x−minmax−min X^{\prime}=\frac{x-min}{max-min} X=maxminxmin

X′′=X′∗(mx−mi)+mi X^{\prime\prime}=X^{\prime}*(mx-mi)+mi X

数据预处理中的归一化是一种常用的数据预处理技术,它通过将数据转换到统一的形式,以改善模型的性能并提高预测的准确性。归一化可以消除数据集中的尺度差异,使得不同尺度的特征具有可比性。 常见的归一化方法包括最小-最大归一化、Z-score标准化和按比例缩放(Proportional Scaling)。 1. 最小-最大归一化:这种方法将每个特征的值映射到给定范围内的最小值和最大值之间。最常见的是映射到[0,1]区间,但也可以映射到其他范围,如[-1,1]。这种方法的优点是简单直观,但缺点是可能丢失一些信息,特别是当原始数据分布存在偏态时。 2. Z-score标准化:这种方法将每个特征的均值和标准偏差用于转换数据。这种方法可以处理偏态分布的数据,但仍然会丢失一些原始数据的具体信息。 3. 按比例缩放(Proportional Scaling):这种方法将每个特征的值除以一个固定的常数,这个常数通常是该特征的最大值。这种方法可以保持原始数据的相对比例,但可能会改变数据的顺序。 在进行归一化之前,通常需要先清洗数据,移除缺失值、异常值和噪声。归一化完成后,可能需要再对数据进行聚合或转化,以便于后续的模型训练。 请注意,选择哪种归一化方法取决于具体的数据集和所使用的模型。有时可能需要结合使用多种方法来获得最佳效果。在进行归一化时,应密切关注数据的分布和相关性,以避免引入新的偏见或模式。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值