最近一直在Udacity上学习数据科学的相关方知识:
课程框架:
第一章:数据分析入门(资料记录在本地和博客上 python+SQL)
1.1 数据分析过程:question-wrangle-explore-draw conclusion-communicate
wrangle: gather data -- assess data -- clean data
1.2 数据分析过程-案例研究1(分析红葡萄酒和白葡萄酒化学性质以及相关质量)
1.3 数据分析过程-案例研究2(分析2008年到2018年不同汽车车型的燃油经济性情况)
1.4 数据分析的编程工作流 (上面四个部分都是利用Python语言进行的数据分析,相应具体的处理代码和数据集信息,请多次重复翻阅和实践)
1.5 基本SQL (2.5基本SQL知识)
1.6 SQL JOIN(2.6 SQL JOIN)
1.7 SQL 聚合(2.7 SQL聚合函数)
1.8 SQL子查询和临时表格(2.8 SQL子查询和临时表格)
1.9 SQL 数据清理(2.9 SQL数据清理)
第二章 数据清理(资料记录在全部在本地 python)
2.1 数据整理简介:整个流程是wrangle: gather data -- assess data -- clean data
收集数据(总结):
1)根据数据来源的不同,采用不同的数据收集方法。
评估数据(总结):以可视化或者程序的方式,确定数据质量和整洁度的问题
1)非描述性的列标题
2)缺少值(Nan)
3) 值表示方法不一致(例如,有的全称或简称)
4)数据集杂乱(messy data)
清洗数据(总结):
将观察结果从评估步骤转换成定义的问题,将这些定义转换为复杂的代码来修复,再测试(define-code-test),可使用assert语句来确保正常操作。
2.2 收集数据
2.3 评估数据
2.4 清理数据
总结:::
*** 收集数据
# 根据数据来源及其格式,收集的数据的步骤各有不同
# 高级收集过程:获取数据(从互联网下载文件,抓取网页,查询API等方式),然后将该数据集导入到编程环境
*** 评估数据
# 数据待评估部分:
# 质量问题:内容问题(数据丢失-数据无效,不合乎逻辑-数据不准确,与真实情况不等-数据不一致,如同一列的量纲不同)
# 整洁度:使得问题难以进行,应保证(每个变量一列- 每个观察结果形成一行-每种观察单位构成一个表格)
# 评估类型:
# 目测评估:利用excel或者Googlesheet等工具进行目测评估
# 编程评估:使用代码来查看数据的特定部分和摘要(head(),tail(),info(),shape,dtypes().val_count()等)
*** 清洗
清洗类型:手动 or 编程
清洗过程:define -- code -- test
注意:清洗数据之前,记得备份原始数据
***重新评估数据与迭代
*** 存储 store
第三章:探索性数据分析(EDA)(主要是讲解利用R语言进行的数据分析和可视化,资料在R的路径下)
3.1 什么是EDA?
3.2 R基础
3.3探索单一变量 lesson3.rmd
习题集:探索单一变量 practice_lesson3.r
3.4 探索两个变量 lessong_4.rmd
习题集:探索两个变量 practice_lesson4.r
3.5 探索多个变量 lesson_5.rmd
习题集:探索多个变量 practice_lesson.r
3.6 砖石与价格预测
主要是根据砖石的数据,考虑了以下三组变量的关系
克拉重量、纯度与价格的关系
克拉重量、切工与价格的关系
克拉重量、颜色与价格的关系