【人工智能概论】用Python实现数据的归一化

小白的努力探索

已于 2023-05-10 08:42:51 修改

阅读量3.7k

点赞数 2

分类专栏：【人工智能概论】文章标签： python 人工智能机器学习

于 2023-04-24 16:28:44 首次发布

本文链接：https://blog.youkuaiyun.com/qq_44928822/article/details/130345140

版权

【人工智能概论】专栏收录该内容

34 篇文章

订阅专栏

文章介绍了数据归一化在处理多特征数据集中的重要性，特别是对于有数量级差异的情况。讨论了两种常见的归一化方法：最大最小标准化和z-score标准化，以及它们的适用场景和优缺点。接着，通过sklearn库展示了如何在Python中实现这两种数据归一化的例子。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【人工智能概论】用Python实现数据的归一化

文章目录

【人工智能概论】用Python实现数据的归一化
一. 数据归一化处理的意义
二. 常见的归一化方法
- 2.1 最大最小标准化（Min-Max Normalization）
- 2.2 z-score 标准化
三. 用sklearn实现归一化

一. 数据归一化处理的意义

多特征数据集常会遇到这样的问题，不同特征间的取值范围往往有很大的差别，甚至是存在数量级方面的差异，这很有可能会导致深度学习算法精确度的降低，因此对数据进行归一化处理是很有意义的。

二. 常见的归一化方法

2.1 最大最小标准化（Min-Max Normalization）

公式： $x^{'} = \frac{x - min(x)}{max(x)-mix(x)}$
这是一种线性映射的方法，将原始数据线性映射到[0 1]的范围内， X为原始数据；
比较适用于数值比较集中的情况；
缺陷：如果max和min不稳定，很容易使得归一化结果不稳定；

2.2 z-score 标准化

公式： $x^{*} = \frac{x - \mu}{\sigma }$ 其中，μ、σ分别为原始数据的均值和方差。
将原始数据归一化为均值为0、方差1的数据；
该方法要求原始数据的分布近似为高斯分布，否则归一化的效果会变得很糟糕。

三. 用sklearn实现归一化

创建测试数据

# 创建数据
import pandas as pd

import numpy as np

x=np.random.randint(1,1000,(10000,5))

x=pd.DataFrame(x)

print(x)

在这里插入图片描述

查看原始数据的均值与方差

# 查看原始数据的均值、方差

print("原始数据均值")
display(x.mean())
print("原始数据方差")
display(x.var())

在这里插入图片描述

最大最小标准化（Min-Max Normalization）

# 最大最小标准化（Min-Max Normalization）

from sklearn.preprocessing import MinMaxScaler

x_min=MinMaxScaler().fit_transform(x)

x_min=pd.DataFrame(x_min)

display(x_min.mean())

display(x_min.var())

在这里插入图片描述

z-score 标准化

# z-score 标准化

from sklearn.preprocessing import StandardScaler

x_std=StandardScaler().fit_transform(x)

x_std=pd.DataFrame(x_std)

display(x_std.mean())

display(x_std.var())