为什么需要清洗数据
错进,错出
数据科学过程
注意
非线性
会根据具体情况反复执行这些步骤(迭代过程)
并不是每一个项目都会包含这些步骤
清洗工作包含了分析方法所能决定的各种任务(交换文件的格式、字符编码的修改、数据提取的细节)
(1)问题陈述。识别出你要解决的问题是什么
(2)数据收集与存储。确定数据来源、存放位置、格式。
(3)数据清洗。确定数据是否需要修改、删除,应该怎样调整才适用于接下来的分析和挖掘。
(4)数据分析和机器学习。数据需要哪些处理、转换,使用什么算法,运用什么公式,使用顺序又是什么样的?
(5)数据展现和可视化实现。可以选择的数据呈现形式有数据表、图画、图表、网络图、文字云、地图等。比较确定最佳可视化方案。
(6)问题决议。回答第一步中的问题,对数据处理结果的不足进行反思,寻找更好的替代方案。
六步处理过程围绕着问题和解决方案这个故事线组织的,在作为报表框架使用时,它的表现十分优秀。
保留一份工作日志
链接,屏幕截图,复制粘贴你曾经运行过的具体的命令,并配上为什么这样做的解释性文字。
使用Git或是Subversion进行软件项目管理中的版本控制。
入门示例
打开SQL文件
一些问题调试与解决方案
ERROR 1062 (23000) at line 31: Duplicate entry ‘13’ for key ‘PRIMARY’
日期错误
对于这种问题的修复方案
(1)什么都不处理
(2)修正数据
(3)扔掉受影响的邮件
对于方案2、3之间的选择,要根据错误邮件数量来进行判断