数据挖掘与数据仓库——数据预处理

最新推荐文章于 2023-03-14 22:19:16 发布

布丁的自我修养

最新推荐文章于 2023-03-14 22:19:16 发布

阅读量1k

点赞数 1

分类专栏：数据挖掘与数据仓库文章标签：数据挖掘数据预处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/budding0828/article/details/90311670

版权

数据预处理

为什么要进行预处理

现实世界的数据很“脏”

不完整的: 缺少属性值, 感兴趣的属性缺少属性值, 或仅包含聚集数据
如, occupation=“ ”
来源于：收集数据时，在不同的阶段具有不同的考虑；人/硬件/软件的问题等。
含噪声的: 包含错误或存在孤立点
如, Salary=“-10”
来源于：收集阶段；数据传输阶段等。
不一致的: 在名称或代码之间存在着差异
如, Age=“42” Birthday=“03/07/1997”
如, 原来排序 “1,2,3”, 现在排序 “A, B, C”
来源于：不同的数据源；功能依赖冲突。

数据预处理的主要任务

数据清洗（Data cleaning）
填充遗失的数据, 平滑噪声数据, 辨识或删除孤立点, 解决不一致性问题
数据集成（Data integration）
对多个数据库，数据立方或文件进行集成
数据变换（Data transformation）
规范化与聚集（Normalization and aggregation）
数据约简（Data reduction）
得到数据集的压缩表示，它小的多，但能够产生同样的（或几乎同样的）分析结果
数据离散化（Data discretization&

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。