💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在优快云上与你们相遇~💖
本博客的精华专栏:
【自动化测试】 【测试经验】 【人工智能】 【Python】
Sklearn 机器学习:数值标准化实战指南(含 CSV 读取与训练测试处理)
在机器学习中,特征的数值标准化(Normalization/Standardization) 是模型训练前非常重要的预处理步骤,尤其在使用如 SVM、KNN、逻辑回归等对特征尺度敏感的算法时更是关键。
💡 术语说明:在实际使用中,
Normalization
和Standardization
虽常被混用,但两者含义略有不同:
- Standardization 指将数据转换为标准正态分布(均值为0,标准差为1);
- Normalization 通常指将数据缩放到特定区间(如 [0,1]);
本文统一使用“数值标准化”泛指特征尺度调整的所有方法,具体方法将在文中分别说明。
📌 一、什么是数值标准化?
数值标准化是将特征数据缩放到统一的尺度上,常见方法包括:
-
Z-score 标准化(StandardScaler)
将每一维特征转换为均值为 0,标准差为 1 的分布:z = x − μ σ z = \frac{x - \mu}{\sigma} z=σx−μ
其中 $\mu$ 为特征均值,$\sigma$ 为标准差。
-
最小-最大缩放(MinMaxScaler)
将特征压缩到指定区间(如 [0, 1]):x ′ = x − x min x max − x min x' = \frac{x - x_{\min}}{x_{\max} - x_{\min}} x