
数据清洗
TheGodsHand
每天进步一点点
展开
-
数据清洗(二)----- 数据转换
一、将电子表格转换为CSV类型 这个比较简单,基本上用软件打开电子表格后选择另存为就可以定义另存文件的格式和编码了,这是比较简单快捷的。不过也有一些地方需要注意:在另存为CSV文件时,只有当前工作表中的内容会被保存,这是因为CSV文件只能描述一组数据集。如果你的电子表格里有多个工作表的话,需要分别单独存为CSV文件。二、将电子表格转换为JSON 电子表格转...原创 2019-01-17 12:14:45 · 2565 阅读 · 0 评论 -
数据清洗(三)----- 清洗PDF文件中的数据
可移植文档格式(PDF)存储的文件相对较复杂,因为它是以二进制的形式存储的,格式固定,不可修改。使用起来很方便,但是里面的信息相对较难提取,下面将介绍一些方式提取FDF中的信息。1. 最简单的方式----复制 有pdf文件里面的内容可以复制出来再整理,这对于需要从PDF中拿少量信息来说十分便利;但是数据比较多时这样做的效率低下,而且有的PDF根本无法复制,因此这种方...原创 2019-01-17 17:47:43 · 4901 阅读 · 4 评论 -
数据清洗(一)----- 清洗数据的目的及基本格式、类型与编码
一、数据清洗的目的 简单的来说不干净的数据会导致分析过程中的错误以及结果的错误。举个简单的例子,以前我们上学时做柱形图这种类型的图时,如果大部分数据集中在某个区间而一两个数据离得很远,如果不去除这一两个有问题的数据,那整体的图画出来就会有问题,不能反映数据的情况。二、数据科学的过程1. 问题陈述 清楚的了解你要解决的问题是什么。2. 数据的收集与存储...原创 2019-01-16 16:24:16 · 14731 阅读 · 0 评论