9、数据预处理与降维技术详解

数据预处理与降维技术详解

在数据处理与分析的过程中,数据预处理和降维是至关重要的步骤。数据预处理能够提升数据质量,而降维则有助于减少数据量,提高分析效率。下面将详细介绍数据预处理中的归一化、属性构造,以及数据降维的多种策略。

1. 数据归一化

数据归一化是将数据按比例缩放,使之落入一个特定区间,常见的方法有z-score归一化和小数定标归一化。

1.1 z-score归一化

z-score归一化的公式为:
[v’ = \frac{v - A}{\sigma_A}]
其中,$A$ 是属性 $A$ 的均值,$\sigma_A$ 是属性 $A$ 的标准差。当属性 $A$ 的实际最小值和最大值未知,或者存在主导最小 - 最大归一化的离群值时,这种归一化方法非常有用。

例如,假设属性 “收入” 的均值为 $54,000$ 美元,标准差为 $16,000$ 美元,那么收入值为 $73,600$ 美元经过z-score归一化后为:
[\frac{73600 - 54000}{16000} = 1.225]

1.2 小数定标归一化

小数定标归一化通过移动属性 $A$ 值的小数点来实现归一化。移动的小数点位数取决于 $A$ 的最大绝对值。属性 $A$ 的值 $v$ 归一化后的 $v’$ 计算公式为:
[v’ = \frac{v}{10^j}]
其中,$j$ 是使得 $Max(|v’|) < 1$ 的最小整数。

例如,若属性 $A$ 的记录值范围从 $-986$ 到 $917$,$A$ 的最大绝对值是 $986$,则通过小数定标归一化,将

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值