数据预处理 | Data Preprocessing

归一化和标准化是数据预处理的重要步骤,用于消除量纲影响,提升模型性能。归一化将数据映射到[0,1]或[-1,1]区间,而标准化则转化为标准正态分布。两者在梯度下降、距离计算、无量纲化等方面有不同作用。在涉及距离度量的模型(如SVM、KNN)和神经网络中,归一化/标准化是必要的。选择哪种方法取决于具体应用场景和模型需求。" 106515137,9682956,Vue全家桶中级实战教程:从基础到进阶,"['前端开发', 'Vue', 'JavaScript', 'Web开发', '编程教程']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

归一化和标准化

归一化(Nomalization)

归一化是将样本的特征值转换到同一量纲下把数据映射到[0,1]或者[-1, 1]区间内,仅由变量的极值决定。

包括:区间放缩法

标准化( Standarization)

通过求z-score的方法,转换为标准正态分布,和整体样本分布相关,每个样本点都能对标准化产生影响。

比较

它们的相同点在于都能取消由于量纲不同引起的误差;都是一种线性变换,都是对向量X按照比例压缩再进行平移。线性变换有很多良好的性质,这些性质决定了对数据改变后不会造成“失效”,反而能提高数据的表现,这些性质是归一化/标准化的前提。比如有一个很重要的性质:线性变换不会改变原始数据的数值排序。


(1)某些模型求解需要
  1)在使用梯度下降的方法求解最优化问题时, 归一化/标准化后可以加快梯度下降的求解速度,即提升模型的收敛速度。如左图所示,未归一化/标准化时形成的等高线偏椭圆,迭代时很有可能走“之”字型路线(垂直长轴),从而导致迭代很多次才能收敛。而如右图对两个特征进行了归一化,对应的等高线就会变圆,在梯度下降进行求解时能较快的收敛。

(2)一些分类器需要计算样本之间的距离(如欧氏距离),例如KNN。如果一个特征值域范围非常大,那么距离计算就主要取决于这个特征,从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要)。

(3) 无量纲化
  例如房子数量和

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值