14、数据清理:格式化、异常值与缺失数据处理

数据清理:格式化、异常值与缺失数据处理

1. 数据清理的思考

在进行数据清理时,我们需要思考一些关键问题。比如,是否一定要拥有所有的数据?如果是,花费多少时间去获取这些数据是值得的?是否有简单的方法既能保留所需的数据,又能将其清理干净?是否有可重复的清理方法?这些问题能帮助我们更好地清理数据集。

例如,我们的第一次数据清理尝试(替换标题文本)保留的列较少,并且没有发现存在缺失标题的情况。但只要得到的数据集包含我们所需的列,这种方法就是足够的,而且它速度更快,所需代码也更少。

2. 数据格式化

数据清理中常见的一种形式是将难以阅读或无法阅读的数据及数据类型转换为合适的可读格式。特别是在需要使用数据创建报告或可下载文件时,要确保数据从机器可读转换为人类可读。如果数据需要与 API 一起使用,可能还需要特殊格式的数据类型。

2.1 字符串和数字格式化

Python 提供了多种格式化字符串和数字的方法。
- %r :在第 5 章中用于调试和显示结果,它会显示对象在字符串或 Unicode 中的 Python 表示形式。
- %s %d :分别表示字符串和数字,常与 print 命令结合使用。

更高级的方法是使用 format 方法。以下是示例代码:

for x in zipped_data[0]:
    print 'Question: {}\nA
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值