格式转换
数据的原始储存形式未必适合Python的数据处理
例如:时间,字符串转其他
缺失数据
每条数据都可能在某些属性值上缺失
怎样应对缺失数据
忽略有缺失数据的记录
直接把值标记成未知
利用平均值、最常出现的值等去填充(有很多复杂的方法。)
异常数据
出现不符合常识的数据(异常挖掘)
处理方式类比缺失数据
数据标准化
US、USA、united states------>美国(USA)
住址范围(经纬度不同,但是同一个城市。)
工具Pandas:主要的数据格式是datafram Seaborn:数据可视化
实战操作(数据bank)

本文介绍了如何使用Pandas和Seaborn进行数据清理,包括格式转换、处理缺失数据、异常数据和数据标准化。通过实战操作展示了对年龄、时间等字段的清洗和可视化过程,如将时间字符串转化为日期类型,并利用箱线图识别并处理离群点。
最低0.47元/天 解锁文章
865

被折叠的 条评论
为什么被折叠?



