第三章、数据预处理

本文介绍了数据预处理的重要性和步骤,包括数据清理、集成、变换和规约等内容。重点讨论了处理空缺值、噪声数据的方法及数据集成过程中实体识别等问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

3.1 为什么需要预处理

数据

不完整,含噪声,不一致

数据清理通过填写空缺值,平滑噪声数据,识别删除孤立点,并解决不一致来清理数据。

脏数据形成的原因

滥用缩写词

数据输入错误

数据中的内嵌控制信息

不同的惯用语(如:ASAP对“at firstchance”)

重复记录

丢失值

拼写变化

不同的计量单位

过时的编码

数据清理的重要性

  1. 脏数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个极其困难的任务。
  2. 垃圾进、垃圾出

数据清理处理内容

格式标准化

异常数据清除

错误纠正

重复数据的清除

数据规约

数据集的压缩表示,但是能和原始数据集达到相同或基本相同的分析结果

主要策略:

数据聚集

维规约

数据压缩

数据规约

3.2 数据清理

空缺值

忽略元组

人工填写空缺值

使用固定值

使用属性平均值

使用最有可能值

噪声数据

如何平滑数据,去掉噪声

数据平滑技术

分箱

聚类

计算机和人工检查相结合

回归

分箱

 箱的深度:表示不同的箱里有相同个数的数据。

箱的宽度:每个箱值的取值区间是个常数。

平滑方法:

按箱平均值平滑

按箱中值平滑

按箱边界值平滑

聚类

每个簇中的数据用其中心值代替

忽略孤立点

计算机和人工检查相结合

先通过聚类等方法找出孤立点。这些孤立点可能包含有用的信息。

人工再审查这些孤立点

回归

通过构造函数来符合数据变化的趋势,这样可以用一个变量预测另一个变量。

线形回归

多线形回归

3.3 数据集成和变换

数据集成

将多个数据源中的数据结合起来存放在一个一致的数据存贮中。

实体识别 实体和模式的匹配

冗余:某个属性可以由别的属性推出。

相关分析

相关性rA,B .

rA,B>0,正相关。A随B的值得增大而增大

rA,B=0,无关。AB无关

rA,B<0,负相关。A随B的值得增大而减少

重复 同一数据存储多次

数据值冲突的检测和处理

数据变换

平滑

聚集

数据概化

规范化

属性构造(特征构造)

最小 最大规范化

小数定标规范化

属性构造: 由给定的属性构造和添加新的属性,以帮助提高精度和对高维数据结构的理解

数据规约

数据立方体聚集

寻找感兴趣的维度进行再聚集

维规约

删除不相关的属性(维)来减少数据量。

属性子集选择

找出最小属性集合,使得数据类的概率分布尽可能地接近使用所有属性的原分布

如何选取?

贪心算法

逐步向前选择

逐步后向删除

向前选择和后向删除相结合

判定树归纳

数据压缩

有损,无损

小波变换

将数据向量D转换成为数值上不同的小波系数的向量D’.

对D’进行剪裁,保留小波系数最强的部分。

数据压缩cont.      

主要成分分析

数值规约

回归和对数线形模型

线形回归

对数线形模型

直方图

•    等宽

•    等深

•    V-最优

•    maxDiff

数值规约cont

聚类

多维索引树 : 对于给定的数据集合,索引树动态的划分多维空间。

选样

•    简单选择n个样本,不放回

•    简单选择n个样本,放回

•    聚类选样

•    分层选样

离散化和概念分层

离散化技术用来减少给定连续属性的个数

通常是递归的。

大量时间花在排序上。

对于给定的数值属性,概念分层定义了该属性的一个离散化的值。

数值数据离散化和概念分层生成

分箱

直方图分析

聚类分析

基于熵的离散化

通过自然划分分段 3-4-5规则

•    如果一个区间最高有效位上包括3 6 9 个不同的值,划分为3个等宽区间。7个不同值,按2-3-2划分为3个区间

•    最高位包含2,4,8个不同值,划分为4个等宽区间

•    最高位包含1 ,5,10个不同值,划分为5个等宽区间

•    将该规则递归的应用于每个子区间,产生给定数值属性的概念分层;

分类数据的概念分层的生成

分类数据是离散数据。一个分类属性可能有有限个不同的值。

方法

•    由用户和专家在模式级显式的说明属性的部分序

•    通过显式的数据分组说明分层结构的一部分

•    说明属性集,但不说明他们的偏序

•    只说明部分的属性集

 


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值