数据的中心化与标准化

标准化
数据标准化处理是数据挖掘的的一项基础工作。不同的评价指标往往具有不同的量纲,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果。为了消除标准之间的量纲和和取值范围差异的影响,需要进行标准化处理,将数据按照比例进行放缩,使之落入一个特定的区域,便于进行综合分析。
:数据标准化对于基于距离的挖掘算法尤为重要。
对于统计专业的学生,最常见的标准化方法为:零—均值标准化,如下:
xnew=x−xˉσ x_{new}=\frac{x-\bar{x}}{\sigma} xnew=σxxˉ
经上式处理的数据的均值为0,标准差为1。
但是由于均值和标准差受离群点的影响很大,因此在实际的数据挖掘中,通常会对上式进行一些修改:
(1)用中位数代替均值。
虽然从信息利用的角度来考虑,平均数结合了样本的所有信息,但是就具有离群点的样本来说,中位数会比平均数更加稳健。
(2)用绝对标准差来取代标准差,绝对标准差定义如下:
σnew=∑i=1i=n∣xi−W∣ \sigma_{new}=\sum_{i=1}^{i=n}|x_{i}-W| σnew=i=1i=nxiW
其中WWW是平均数或者中位数。

总的来说,标准化的目的是用来消除数据之间的量纲,使之落入一个特定的区域,便于进行综合分析。但是标准化的方法有很多种,除了上述方法,还有最小-最大标准化,小数定标标准化,这里不给出详细介绍。

中心化
中心化也叫作零均值化。
其具体操作是变量减去其均值,即:
xnew=x−xˉ x_{new}=x-\bar{x} xnew=xxˉ
实际上数据的中心化处理是对数据的一种平移变换,使其均值为0,但是没有改变数据在空间中的相对位置。中心化可以使得很多理论研究变得非常简洁。举如下一个例子:
例:若X1,...,XnX_1,...,X_nX1,...,Xn独立同分布,且X1∼(μ,σ2)X_1\sim(\mu,\sigma^2)X1(μ,σ2),即:
Eθ(X1)=μ(θ)VarθX1=σ2(θ) E_{\theta}(X_1)=\mu(\theta)\\Var_{\theta}{X_1}=\sigma^2(\theta) Eθ(X1)=μ(θ)VarθX1=σ2(θ)
假定它们存在,则Xˉ和S2=(n−1)−1∑i=1n(Xi−Xˉ)2为μ和σ的无偏估计\bar{X}和S^2=(n-1)^{-1}\sum_{i=1}^{n}(X_i-\bar{X})^2为\mu和\sigma的无偏估计XˉS2=(n1)1i=1n(XiXˉ)2μσ(对任何分布都成立)
这里不给出具体解答过程,采用中心化会使得在后面求期望非常简单。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值