需要源码和PPT请点赞关注收藏后评论区留言私信~~~
在数据预处理过程中,不同的数据适合不同的数据挖掘算法。数据变换是一种将原始数据变换成较好数据格式的方法,以便作为数据处理前特定数据挖掘算法的输入。数据离散化是一种数据变换的形式
一、数据变换的策略
1. 光滑 数据光滑用于去掉数据中的噪声。常用的数据平滑方法有分箱、回归和聚类等方法
2. 属性构造 属性构造是通过由给定的属性构造新的属性并添加到属性集中,以帮助数据挖掘
3. 聚集 聚集是对数据进行汇总或聚集。例如,可以聚集日销售数据,计算月和年销售量。通常,聚集用来为多个抽象层的数据分析构造数据立方体
4. 规范化 把属性数据按比例缩放,使之落入一个特定的小区间,如-1.0~1.0
(1)最小-最大规范化
(2)z分数规范化
(3)小数定标