【机器学习 - 3】：数据归一化（最值归一化、均值方差归一化）

最新推荐文章于 2025-12-08 14:17:04 发布

原创

最新推荐文章于 2025-12-08 14:17:04 发布 · 3.3k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#均值算法 #python

文章介绍了数据归一化的重要性，特别是在机器学习中，如KNN算法，归一化可以避免不同尺度特征的影响。文章详细讲解了最值归一化和均值方差归一化的公式及应用，并通过Python的sklearn库展示了如何对鸢尾花数据集进行归一化处理，最后用KNN算法评估了归一化后的效果。

文章目录

数据归一化的使用
最值归一化
均值方差归一化（常用）
在sklearn中调用归一化（鸢尾花数据归一化）

数据归一化的使用

为什么要使用数据归一化？
举个例子，例如我们要使用KNN算法来预测肿瘤为良性肿瘤或恶性肿瘤。以下是一些数据：

	肿瘤大小（厘米）	发现时间（天）	肿瘤类型
样本1	1	200	良性肿瘤
样本2	5	100	恶性肿瘤
样本3	2	150	良性肿瘤

根据以上数据，画出散点图

import numpy as np
import matplotlib.pyplot as plt

# 训练集数据
X_train = np.array([
    [1, 200],
    [5, 100],
    [2, 150]
])
y_train = np.array([1,0,1]) # 1为良性，0为恶性

# 绘制散点图
plt.figure(dpi=100)
plt.rcParams['font.sans-serif'] = ['SimHei'] # 设置中文
plt.scatter(X_train[y_train==1,