数据归一化原理

本文介绍了三种常见的数据归一化方法:min_max方法适用于有确切边界的数据;z_score方法适用于无界且有均值的数据;非线性变换如logistic函数则提供了一种通用的处理方式。每种方法都有其适用场景及局限性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、min_max方法:

公式很简单(x - min) / (max - min),一般用于处理有确切上下界样本。

2、z_score方法:

公式为:x* = (x - μ ) / σ,假设样本服从正态分布,一般用于处理无界且有均值的样本。

上述两种方法最常见的归一化方法,但预测数据可能大于max,或者小于min;或者不符合以前的均值方差,会造成一定误差。

3、非线性变换:

logisit函数或者正切函数,这样可以使得所有的数据得到一个普适的处理;但是由于函数的凹凸性,数据较大的样本会抹掉其基本特征。

 

数据预处理中的归一化是指将数据缩放到个预定的范围内,通常是[0, 1]或[-1, 1]之间,以消除数据间的量纲差异,提高模型的训练效率。归一化原理主要包括以下几个步骤: 1. 最小-最大归一化(Min-Max Scaling):将数据映射到指定范围内。首先找到数据集中的最小值(min)和最大值(max),然后使用以下公式数据归一化到[0, 1]之间: X_normalized = (X - X_min) / (X_max - X_min) 其中,X为原始数据,X_normalized为归一化后的数据。这种方适用于数据分布没有明显边界的情况。 2. Z-Score归一化(Standardization):将数据转化为均值为0,标准差为1的正态分布。通过以下公式计算: X_standardized = (X - X_mean) / X_std 其中,X_mean为数据的均值,X_std为数据的标准差。这种方适用于数据分布有明显边界的情况。 3. 小数定标标准化(Decimal Scaling):将数据除以个固定的基数,使得数据的绝对值都小于1或约等于1。例如,将数据除以10的幂次方,使得数据处于[-1, 1]之间。 归一化的目的是消除数据量纲和大小的差异,使得数据在同个数量级下进行比较,加快模型的收敛速度。通过归一化,可以去除数据中的夸大特征,使得所有特征的尺度同等重要,从而提高模型的性能。 参考资料: Python数据预处理之数据规范化.https://www.jianshu.com/p/406e81b2f978 数据预处理中的归一化、标准化和规范化.https://blog.youkuaiyun.com/you_are_my_dream/article/details/79978528 数据预处理之归一化(Normalization).https://www.cnblogs.com/chaosimple/p/4153167.html
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值