一、数据清洗的目的
简单的来说不干净的数据会导致分析过程中的错误以及结果的错误。举个简单的例子,以前我们上学时做柱形图这种类型的图时,如果大部分数据集中在某个区间而一两个数据离得很远,如果不去除这一两个有问题的数据,那整体的图画出来就会有问题,不能反映数据的情况。
二、数据科学的过程
1. 问题陈述
清楚的了解你要解决的问题是什么。
2. 数据的收集与存储
从哪里收集数据?收集来的数据在哪里存放?格式又是什么?
3. 数据清洗
简单的查看一下数据,有哪些地方需要处理?有没有需要删除的?有没有需要转换的?怎样调整数据才能适应接下来的分析和挖掘?
4. 数据分析和机器学习
数据需要进一步进行怎样的处理?使用什么样的算法?运用什么公式?怎样的顺序?
5. 数据展现和可视化
数据的处理结果该怎样呈现出来?采用什么样的图或表能更加直观的达到说明问题的效果?有没有更好的可视化方案?有没有替代方案?
6 问题决议
第一步中问题的答案究竟是什么?数据处理的结果还有哪些方面的不足?这个方法能彻底解决问题么?还有没有别的办法?接下来要做的又是什么?
其实在处理这些问题时步骤大概按照这六步走,但是划分也不那么绝对。比如你在数据收集的时候就可以进行清洗,处理之后还要继续清洗,等等;步骤有时会有交叉,但最终的目的都是一样的。
三、记录数据处理的过程
认真记录下曾经按什么样的顺序处理过什么样的事情很有必要,因为哪怕再小的项目,如果你不记录,几个月之后你可能就不知道当时对数据干了啥,也说不清其中的原由,更谈不上重新做一次。
解决这个问题最好的办法就是留一份工作日志。这个日志应该包含链接、屏幕截图、复制粘贴关键的命令、解释这样处理原因的关键性文字等等。如果你对版本控制系统比较熟的话,可以使用Git或SVN来记录处理的过程。
四、基础知识——格式、类型与编码
1. 文件格式
在网上收集数据的时候可能会遇到以下几种情况:
- 数据可以以文件的形式下载
- 数据可以通过交互界面访问,比如利用查询接口来访问数据库系统
- 数据通过持续不断的流的形式进行访问
- 通过应用程序接口(API)来访问
在计算机中广义存在的两种文件类型是文本文件和二进制文件;简单来说,平时我们能看懂的记事本、表格等都是文本文件,计算机能读懂但由非人类可读字符组成的文件是二进制文件。
1.1 常见的文本文件格式
最常见的文本文件类型主要有三种:
- 分隔格式