归一化和标准化

本文深入解析了数据预处理中的归一化和标准化技术,阐述了两者的概念、应用场景及核心区别。归一化旨在将数据转换为无量纲形式,便于不同单位的数据比较;标准化则使数据符合标准正态分布,适用于机器学习算法。文章还提供了多种实施方法,如Min-MaxNormalization、Z-score规范化等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.概念:

归一化:1)把数据变成(0,1)或者(1,1)之间的小数。主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。2)把有量纲表达式变成无量纲表达式,便于不同单位或量级的指标能够进行比较和加权。归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。

标准化:在机器学习中,我们可能要处理不同种类的资料,例如,音讯和图片上的像素值,这些资料可能是高维度的,资料标准化后会使每个特征中的数值平均变为0(将每个特征的值都减掉原始资料中该特征的平均)、标准差变为1,这个方法被广泛的使用在许多机器学习算法中(例如:支持向量机、逻辑回归和类神经网络)。

2.区别:

归一化是将样本的特征值转换到同一量纲下把数据映射到[0,1]或者[-1, 1]区间内,仅由变量的极值决定,因区间放缩法是归一化的一种。标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,转换为标准正态分布,和整体样本分布相关,每个样本点都能对标准化产生影响。它们的相同点在于都能取消由于量纲不同引起的误差;都是一种线性变换,都是对向量X按照比例压缩再进行平移。

3.常用方法:

归一化:

(1)Min-Max Normalization

   x' = (x - X_min) / (X_max - X_min)

        X_min:样本最小值,X_max:样本最大值,但是最大最小值容易受到异常点的影响,健壮性比较差,使用于传统的精确小  数据。

(2)平均归一化
   x' = (x - μ) / (MaxValue - MinValue)

        μ为样本均值
  (1)和(2)有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。

(3)非线性归一化
  1)对数函数转换:y = log10(x)
  2)反余切函数转换:y = atan(x) * 2 / π

标准化:

(1)Z-score规范化(标准差标准化 / 零均值标准化)
  x' = (x - μ)/σ

    σ:样本标准差。

参考:

简书:https://www.jianshu.com/p/95a8f035c86c

知乎:https://www.zhihu.com/question/20467170

知乎:https://zhuanlan.zhihu.com/p/35600334

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值