7、数据预处理与描述性数据总结全解析

数据预处理与描述性数据总结全解析

在数据挖掘的实际应用中,数据预处理是至关重要的一环。现实世界中的数据往往存在各种问题,如不完整、有噪声和不一致等,这些问题会严重影响数据挖掘的结果。因此,在进行数据挖掘之前,对数据进行预处理是非常必要的。

1. 为何要进行数据预处理

在实际的数据分析场景中,我们常常会遇到数据不完整、有噪声和不一致的问题。以下是这些问题产生的原因及影响:
- 数据不完整的原因
- 感兴趣的属性可能并非总是可用,例如销售交易数据中的客户信息。
- 某些数据在录入时可能被认为不重要而未被包含。
- 由于误解或设备故障,相关数据可能未被记录。
- 与其他记录数据不一致的数据可能已被删除。
- 数据的历史记录或修改记录可能被忽略。
- 数据有噪声的原因
- 数据收集工具可能存在故障。
- 数据录入时可能出现人为或计算机错误。
- 数据传输过程中可能出现错误。
- 技术限制,如协调同步数据传输和消费的缓冲区大小有限。
- 命名约定或数据代码使用不一致,或输入字段格式不一致,如日期格式。
- 数据不一致的情况 :不同数据库中表示同一概念的属性可能有不同的名称,导致不一致和冗余。例如,客户标识属性在一个数据存储中可能称为“customer id”,而在另一个数据存储中可能称为“cust id”。

数据清洗例程通过填充缺失值、平滑噪声数据、识别或去除异常值以及解决不一致性来“清理”数据。如果用户认为数据不干净,他们不太可能信任对其应

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值