Python数据分析与可视化笔记五数据清洗特征工程特征选择方法

最新推荐文章于 2024-05-02 07:20:28 发布

原创

最新推荐文章于 2024-05-02 07:20:28 发布 · 425 阅读

·

8

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #数据分析 #笔记

数据清洗

数据清洗的主要目的是对缺失值、噪声数据、不一致数据、异常数据进行处理和对上述数据质量问题分析时发现的问题进行处理，使得清洁后的数据格式符合标准、不存在异常数据等。

1.缺失值的处理

（1）忽略有缺失值的数据。若某条数据存在缺失项，就删除该条记录；若某个属性列缺失值过多，则在整个数据集中删除该属性，但有可能因此损失大量数据。

（2）进行缺失值填补。可以填补某一固定值、平均值或者根据记录填充最有可能值。可能会利用决策树、回归分析等。

2.噪声数据的处理

（1）分箱技术

分箱技术通过考察相邻数据来确定最终值，可以实现异常或噪声数据的平滑处理。基本思想是按照属性值划分子区间，若属性值属于某个子区间，就将其放入该子区间对应的“箱子”内。箱的深度表示箱中所含数据记录条数，宽度则表示对应属性值的取值范围。

（2）聚类技术

聚类技术是将数据集合分组为由类似的数据组成的多个簇。聚类技术主要用于找出并清除那些落在簇之外的值（孤立点）。这些孤立点被视为噪声。

（3）回归技术

通过发现两个相关变量之间的关系，寻找适合两个变量之间的映射关系来平滑处理，即通过建立数学模型来预测下一个数值。

3.不一致数据的处理

需根据实际情况给出处理方案，可以使用相关材料进行人工修复、对不同源数据进行数据转化等。

4.异常数据的处理

&n

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。