数据清洗(一)----- 清洗数据的目的及基本格式、类型与编码

一、数据清洗的目的

         简单的来说不干净的数据会导致分析过程中的错误以及结果的错误。举个简单的例子,以前我们上学时做柱形图这种类型的图时,如果大部分数据集中在某个区间而一两个数据离得很远,如果不去除这一两个有问题的数据,那整体的图画出来就会有问题,不能反映数据的情况。

二、数据科学的过程

1. 问题陈述

      清楚的了解你要解决的问题是什么。

2. 数据的收集与存储

      从哪里收集数据?收集来的数据在哪里存放?格式又是什么?

3. 数据清洗

      简单的查看一下数据,有哪些地方需要处理?有没有需要删除的?有没有需要转换的?怎样调整数据才能适应接下来的分析和挖掘?

4. 数据分析和机器学习

     数据需要进一步进行怎样的处理?使用什么样的算法?运用什么公式?怎样的顺序?

5. 数据展现和可视化

     数据的处理结果该怎样呈现出来?采用什么样的图或表能更加直观的达到说明问题的效果?有没有更好的可视化方案?有没有替代方案?

6 问题决议

    第一步中问题的答案究竟是什么?数据处理的结果还有哪些方面的不足?这个方法能彻底解决问题么?还有没有别的办法?接下来要做的又是什么?

       其实在处理这些问题时步骤大概按照这六步走,但是划分也不那么绝对。比如你在数据收集的时候就可以进行清洗,处理之后还要继续清洗,等等;步骤有时会有交叉,但最终的目的都是一样的。

三、记录数据处理的过程

        认真记录下曾经按什么样的顺序处理过什么样的事情很有必要,因为哪怕再小的项目,如果你不记录,几个月之后你可能就不知道当时对数据干了啥,也说不清其中的原由,更谈不上重新做一次。

       解决这个问题最好的办法就是留一份工作日志。这个日志应该包含链接、屏幕截图、复制粘贴关键的命令、解释这样处理原因的关键性文字等等。如果你对版本控制系统比较熟的话,可以使用Git或SVN来记录处理的过程。

四、基础知识——格式、类型与编码

1. 文件格式

      在网上收集数据的时候可能会遇到以下几种情况:

  • 数据可以以文件的形式下载
  • 数据可以通过交互界面访问,比如利用查询接口来访问数据库系统
  • 数据通过持续不断的流的形式进行访问
  • 通过应用程序接口(API)来访问

      在计算机中广义存在的两种文件类型是文本文件和二进制文件;简单来说,平时我们能看懂的记事本、表格等都是文本文件,计算机能读懂但由非人类可读字符组成的文件是二进制文件。

1.1 常见的文本文件格式

      最常见的文本文件类型主要有三种:

  • 分隔格式࿰
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值