使用mlxtend的standardize函数进行数据标准化处理-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00176/article/details/148508031

使用mlxtend的standardize函数进行数据标准化处理

mlxtend rasbt/mlxtend: 是一个用于 Python 数据科学与机器学习的库，提供了许多实用的工具和函数，以简化和加速数据科学的工作流程。适合对 Python 数据科学与机器学习有兴趣的人，特别是想快速实现一些常用机器学习算法和数据处理功能的人。项目地址: https://gitcode.com/gh_mirrors/ml/mlxtend

什么是数据标准化？

数据标准化（Standardization）是机器学习预处理中常用的技术之一，它将数据按特征（列）转换为均值为0、标准差为1的分布。其数学表达式为：

$$ z = \frac{x - \mu}{\sigma} $$

其中：

$\mu$是特征列的均值
$\sigma$是特征列的标准差

为什么需要标准化？

在机器学习中，不同特征往往具有不同的量纲和取值范围，这会导致：

基于距离的算法（如KNN、K-Means）会偏向数值较大的特征
梯度下降算法在不同特征方向上的收敛速度不一致
正则化惩罚项对数值较大的特征影响更大

需要标准化的典型算法包括：

支持向量机(SVM)
逻辑回归
神经网络
主成分分析(PCA)
K近邻(KNN)
K均值聚类(K-Means)

mlxtend的standardize函数

mlxtend库提供了standardize函数，可以方便地对NumPy数组和Pandas DataFrame进行标准化处理。

基本用法

from mlxtend.preprocessing import standardize
import numpy as np

# 创建示例数据
X = np.array([[1, 10], [2, 9], [3, 8], [4, 7], [5, 6], [6, 5]])

# 标准化处理
X_std = standardize(X, columns=[0, 1])

处理Pandas DataFrame

import pandas as pd

df = pd.DataFrame({
    'feature1': [1, 2, 3, 4, 5, 6],
    'feature2': [10, 9, 8, 7, 6, 5]
})

df_std = standardize(df, columns=['feature1', 'feature2'])

参数重用机制

在实际机器学习项目中，我们需要用训练集的参数来标准化测试集，以保持数据分布一致：

# 训练集标准化并保存参数
X_train = np.array([[1, 10], [4, 7], [3, 8]])
X_train_std, params = standardize(X_train, columns=[0, 1], return_params=True)

# 使用训练集参数标准化测试集
X_test = np.array([[1, 2], [3, 4], [5, 6]])
X_test_std = standardize(X_test, columns=[0, 1], params=params)