数据清理:格式化、异常值与缺失数据处理
1. 数据清理的思考
在进行数据清理时,我们需要思考一些关键问题。比如,是否一定要拥有所有的数据?如果是,花费多少时间去获取这些数据是值得的?是否有简单的方法既能保留所需的数据,又能将其清理干净?是否有可重复的清理方法?这些问题能帮助我们更好地清理数据集。
例如,我们的第一次数据清理尝试(替换标题文本)保留的列较少,并且没有发现存在缺失标题的情况。但只要得到的数据集包含我们所需的列,这种方法就是足够的,而且它速度更快,所需代码也更少。
2. 数据格式化
数据清理中常见的一种形式是将难以阅读或无法阅读的数据及数据类型转换为合适的可读格式。特别是在需要使用数据创建报告或可下载文件时,要确保数据从机器可读转换为人类可读。如果数据需要与 API 一起使用,可能还需要特殊格式的数据类型。
2.1 字符串和数字格式化
Python 提供了多种格式化字符串和数字的方法。
- %r :在第 5 章中用于调试和显示结果,它会显示对象在字符串或 Unicode 中的 Python 表示形式。
- %s 和 %d :分别表示字符串和数字,常与 print 命令结合使用。
更高级的方法是使用 format 方法。以下是示例代码:
for x in zipped_data[0]:
print 'Question: {}\nA
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



