动手学数据分析 数据清洗及特征处理

数据清理及特征处理

介绍

在收集到的数据中,经常会遇到一些不规范的数据,如缺失数据、重复数据、无效数据等,因此在进行数据分析之前,一定要对数据进行清理,并提取出目标数据。

在这里主要使用pandas来进行数据处理。

缺失值处理

在pandas中,缺失数据使用NA表示,缺失值判断的相关函数:

  • dropna
  • fillna
  • isnull
  • notnull

可以根据不同场景来使用

重复值处理

在DataFrame中,通过duplicate方法返回一个布尔型的Series,表示各行是否是前面出现过的行,然后通过drop_duplicate方法删除,它们默认保留的是第一个出现的值组合。

特征处理

References

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值