数据预处理-归一化与z-score标准化

本文介绍了数据预处理中常用的归一化方法,包括线性函数转换、对数函数转换、反正切函数转换及z-score标准化等,并解释了它们的具体应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

归一化:

归一化是一种简化计算的方式,即将量纲的表达式,经过变换,化为无量纲的表达式,成为标量。 在多种计算中都经常用到这种方法。


线性函数转换:

y=(x-MinValue)/(MaxValue-MinValue)

说明:x、y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最小值。


对数函数转换:

y=log10(x)

说明:以10为底的对数函数转换。


反正切函数转换:

y=atan(x)*2/PI


z-score标准化:

标准分数(standard score)也叫z分数(z-score),是一个分数与平均数的差再除以标准差的过程。

用公式表示为:z=(x-μ)/σ。其中x为某一具体分数,μ为平均数,σ为标准差。

Z值的量代表着原始分数和母体平均值之间的距离,是以标准差为单位计算。在原始分数低于平均值时Z则为负数,反之则为正数


标准分数可以回答这样一个问题:"一个给定分数距离平均数多少个标准差?"在平均数之上的分数会得到一个正的标准分数,在平均数之下的分数会得到一个负的标准分数。


注:标准差计算公式:

假设有一组数值X₁,X₂,X₃,......Xn(皆为 实数),其 平均值算术平均值)为μ,公式如图1。
标准差也被称为 标准偏差,或者实验标准差,公式为
简单来说,标准差是一组数据 平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。


引自:

http://baike.baidu.com/link?url=n2HbtKxAC_wAyGEJMN-D7wwZNg2B3-dFa-0W9W8sAFJWf5BTry5hIAG6RlFWl-zlWNUUJht85XhoLIy4Hg9Gj_

http://baike.baidu.com/link?url=egN4K40qIsxRxknS6uvOlL63MFGx5LCUq12ojBI-3caMRCYAM5WihO_o2t6vHP0rQKfyei-LKVuN7kbg4HExRK
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值