特征预处理：归一化_ax-abs归一化-优快云博客

本文链接：https://blog.youkuaiyun.com/m0_61281610/article/details/132151936

简介

在机器学习和数据分析中，特征预处理是一个至关重要的步骤，它有助于提高模型的性能并确保数据的一致性。
归一化是特征预处理中的一种常见方法，它可以将特征值缩放到相同的尺度范围，从而避免特征之间的差异影响模型训练。
在本文中，我们将探讨不同的归一化方法、它们的优缺点以及适用场景。

为什么需要归一化？

在现实世界中，不同特征通常具有不同的度量单位和范围。如果不对特征进行归一化，可能会导致以下问题：

特征值范围不同： 不同特征的值可能相差很大，使得某些特征在模型训练中占据主导地位，而其他特征则几乎没有影响力。
优化问题困难： 在优化算法（如梯度下降）中，特征尺度差异较大可能导致收敛缓慢或难以收敛。
特征权重不公平： 在使用基于距离的算法（如K近邻）时，特征值范围大的特征可能会主导距离计算，从而影响模型性能。

为了解决这些问题，我们需要对特征进行归一化处理。

常见的归一化方法

1. Min-Max归一化

Min-Max归一化是一种线性归一化方法，将特征缩放到一个指定的范围（通常是[0, 1]）。它的公式如下：

X_norm = (X - X_min) / (X_max - X_min)

其中，X表示原始特征值，X_min表示特征的最小值，X_max表示特征的最大值。

优点：

简单易懂，公式简单。
保留了原始数据的分布情况。
适用于数据分布有明显边界的情况。

缺点：

对异常值敏感，可能导致归一化后的值过于集中在一个区间。
受离群点影响较大，可能导致边界值过于集中在极端值。

适用场景：

数据分布有明显边界且无显著异常值的情况，只适合传统精确小数据场景。

2. Z-Score归一化（最常见）

Z-Score归一化（也称标准化）是一种线性归一化方法，通过计算特征的均值和标准差将特征转换为均值为0，标准差为1的分布。其公式如下：

X_norm = (X - mean) / std

其中，X表示原始特征值，mean表示特征的均值，std表示特征的标准差。

优点：

均值为0，方差为1，适用于大多数机器学习算法。
相对稳健，对异常值不敏感。

缺点：

不适用于数据分布有明显边界的情况，可能导致数据溢出。
不适用于稀疏数据。

适用场景：

大多数机器学习算法，特别是涉及距离计算的算法。在已有样本足够多的情况下比较稳定，适合现代嘈杂大数据场景
数据分布接近正态分布的情况。

3. 小-最大化（MaxAbs）归一化

MaxAbs归一化通过将特征值除以特征绝对值的最大值来将特征缩放到[-1, 1]范围内。它的公式如下：

X_norm = X / abs(X_max)

其中，X表示原始特征值，X_max表示特征的最大绝对值。

优点：

保留了数据的稀疏性，适用于稀疏数据。
不受异常值影响。

缺点：

不适用于数据分布有明显边界的情况。

适用场景：

稀疏数据和稀疏矩阵。
特征值分布不受明显边界限制。

代码示例

下面是Python代码示例，展示如何使用sklearn库对数据进行归一化处理：

from sklearn.preprocessing import MinMaxScaler, StandardScaler, MaxAbsScaler
import numpy as np

# 原始数据，包含两个特征和一个标签
data = np.array([[1000, 30, 0],
                 [500, 8, 1],
                 [2000, 15, 1],
                 [800, 20, 0]])

# 提取特征和标签
# data[:, :-1]表示选取所有行（:），并且选取除了最后一列之外的所有列（:-1）。
# data[:, -1]表示选取所有行（:），并且选取最后一列（-1）。
features = data[:, :-1]
labels = data[:, -1]
print("原始特征数据：\n", features)
print("原始标签数据：\n", labels)

# Min-Max归一化
min_max_scaler = MinMaxScaler()
min_max_normalized_features = min_max_scaler.fit_transform(features)
print("Min-Max归一化后的特征数据：\n", min_max_normalized_features)

# Z-Score归一化
z_score_scaler = StandardScaler()
z_score_normalized_features = z_score_scaler.fit_transform(features)
print("Z-Score归一化后的特征数据：\n", z_score_normalized_features)

# MaxAbs归一化
max_abs_scaler = MaxAbsScaler()
max_abs_normalized_features = max_abs_scaler.fit_transform(features)
print("MaxAbs归一化后的特征数据：\n", max_abs_normalized_features)